Kursen består av föreläsningar, tre laborationer med inlämingsuppgifter, samt att skriva en uppsats i ett ämne valt i samråd med läraren. Uppsatsen presenteras dessutom muntligt under ett slutseminarium. Laborationerna består i att designa olika delar av en taligenkänningsapplikation, träna systemet och utvardera dess prestanda.
Följande teoretiska delmoment ingår:
- algoritmer for träning, igenkänning samt adaption till egenskaper hos talare och transmissionskanal, inklusive mönsterigenkänning, Hidden Markov Models (HMMs) och Deep Neural Networks (DNNs)
- metoder for att minska känsligheten för störningar och avvikelser
- sannolikhetsteori
- signalbehandling och parameterextraktion
- akustisk modellering av talljudens statiska och tidsvarierande spektrala egenskaper
- statistisk modellering av språkbruk i spontant och formellt tal
- sökstrategier - grundläggande metoder och strategier for stora vokabulärer
- specifika analys- och beslutsmetoder for igenkänning av talare
Dessutom ges viss praktisk inblick i att bygga en tillämpning. Har ingår att implementera vissa funktioner utifrån prototyper ocn att testa dem på riktig taldata.