Till KTH:s startsida Till KTH:s startsida

Datautvinning

Logga in till din kurswebb

Du är inte inloggad på KTH så innehållet är inte anpassat efter dina val.

Welcome!

This is the website for the course ID2222 Data Mining (Datautvinning).

The course studies fundamentals of data mining, data stream processing, and machine learning algorithms for analysing very large amounts of data. We will use big data processing platforms, such as MapReduce, Spark and Apache Flink, for implementing parallel algorithms, as well as computation systems for data stream processing, such as Storm and InfoSphere.

After this course, students will be able to mine different types of data, e.g., high-dimensional data, graph data, and infinite/never-ending data (data streams); as well as to program and build data-mining applications. They are also expected to know how to solve problems in real-world applications, e.g., recommender systems, association rules, link analysis, and duplicate detection. Moreover, they will master various mathematical techniques, e.g., linear algebra, optimisation, and dynamic programming.

Course main content

  • Introduction to Data Mining
  • Frequent Itemsets
  • Finding Similar Items
  • Clustering
  • Recommendation Systems
  • Mining Data Streams
  • Dimensionality Reduction
  • (tentative) Large-Scale Machine Learning

Välkommen!

Kursen behandlar fundamenta inom datautvinning, bearbetning av dataströmmar, och maskininlärningsalgoritmer för att analysera mycket stora datamängder. Vi använder plattformar för storskaliga datamängder, såsom MapReduce, Spark och Apache Flink, för att implementera parallella algoritmer, och även beräkningssystem för bearbetning av dataströmmar, såsom Storm och InfoSphere.

Efter denna kurs kommer studenterna att kunna utföra datautvinning på olika typer av data, till exempel data av högre dimension, grafdata och infinita/icke-avslutade data (dataströmmar); liksom att programmera och bygga tillämpningar inom datautvinning. De förväntas också att kunna lösa problem i praktiska tillämpningar, till exempel rekommendationssystem, associationsregler, länkanalys, och detektion av duplikat. Dessutom kommer de att behärska olika matematiska tekniker till exempel linjär algebra, optimering, och dynamisk programmering.

Kursens huvudsakliga innehåll

  • Introduktion till datautvinning
  • Frekventa Itemmängder
  • Att hitta liknande enheter
  • Klustring
  • Rekommendationssystem
  • Datautvinning från strömmar
  • Dimensionalitetsreduktion
  • (trevande) Storskalig maskininlärning

Lärare