Syntax och semantik for programspråk som är särskilt lämpade for data science, t.ex. Python. Rutiner for att importera, kombinera, omvandla och göra urval av data. Algoritmer for hantering av saknade värden, diskretisering och dimensionalitetsreduktion. Algoritmer for övervakad maskininlärning, t.ex. naive Bayes, beslutsträd, och random forests. Algoritmer for oövervakad maskininlärning, t.ex. k-means clustering. Bibliotek for dataanalys. Utvärderingsmetoder och prestandamått. Visualisering och analys av resultat från dataanalys.
Kursupplägg
Tio förelasningar (ej obligatoriska)
Ett obligatoriskt seminarium
Fyra inlämningsuppgifter, varav en redovisas vid seminariet
Kurslitteratur
I. Witten, E. Frank, M. Hall and C. Pal, Data Mining: Practical Machine Learning Tools and Techniques (4th ed.), Morgan Kaufmann, 2016 ISBN: 9780128042915. J. VanderPlas, Python Data Science Handbook: Essential tools for working with data (1st ed.), O'Reilly Media Inc., 2016 ISBN: 9781491912058.
Utrustningskrav
Egen dator