Hoppa till huvudinnehållet
Till KTH:s startsida

EL2805 Förstärkande inlärning 7,5 hp

Förstärkande Inlärning (or Reinforcement Learning RL) tar upp problemet med att styra ett dynamiskt system för att maximera en uppfattning om belöning som ackumuleras över tiden. Vid varje tidpunkt (eller runt) väljer agenten en åtgärd, och som ett resultat utvecklas systemtillståndet. Agenten observerar det nya tillståndet och samlar in en belöning i samband med tillståndsövergången innan man bestämmer sig för nästa åtgärd. Till skillnad från klassiska kontrolluppgifter där systemdynamiken typiskt är helt förutsägbar, berör RL system vars dynamik måste läras eller med system som interagerar med en osäker miljö. När tiden utvecklas samlar agenten mer data och kan förbättra sin kunskap om systemdynamiken för att fatta bättre informerade beslut. RL har hittat många applikationer, allt från robotik, kontroll, onlinetjänster och spelspel och har fått ökad uppmärksamhet. Mycket nyligen har RL löst problem i situationer som närmar sig verklighetskomplexiteten, till exempel i att lära sig mänsklig nivåkontroll för att spela video och brädspel. Dessa situationer är dock ganska specifika, och vi är fortfarande långt ifrån system som kan lära sig i en mängd olika scenarier som människor gör.

Information per kursomgång

Välj termin och kursomgång för att se aktuell information och mer om kursen, såsom kursplan, studieperiod och anmälningsinformation.

Termin

Kursplan som PDF

Notera: all information från kursplanen visas i tillgängligt format på denna sida.

Kursplan EL2805 (HT 2023–)
Rubriker med innehåll från kursplan EL2805 (HT 2023–) är markerade med en asterisk ( )

Innehåll och lärandemål

Kursinnehåll

Kursen ger en djupgående behandling av de moderna teoretiska verktygen som används för att utforma och analysera förstärkande inlärningsalgoritmer (RL-algoritmer). Den innehåller en introduktion till RL och dess klassiska algoritmer som Q-learning och SARSA, och presenterar vidare motiveringen bakom utformningen av de senaste algoritmerna, såsom de slående optimala avvägningarna mellan prospektering och exploatering. Kursen täcker även algoritmer som används i de senaste framgångshistorierna för RL, t.ex. djupa RL-algoritmer.

Markovkedjor, Markovbeslutsprocessproblem (MDP), dynamisk programmering, värde- och policyiterationer, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit-problemet, RL-algoritmer (Q-learning, Q-learning med funktionsapproximation).

Lärandemål

Efter godkänd kurs ska studenten kunna

  • noggrant formulera stokastiska reglerproblem som Markovbeslutsprocessproblem (MDP), klassificera motsvarande problem och utvärdera deras spårbarhet
  • ange principen om optimalitet i ändlig tid och oändlig tidshorisont för MDP, och lösa MDP med hjälp av dynamisk programmering
  • härleda lösningar till MDP genom att använda värde- och policyiterationer
  • lösa reglerproblem för system vars dynamik måste läras med Q-learning och SARSA-algoritmer
  • förklara skillnaden mellan on-policy- och off-policy-algoritmer
  • utveckla och implementera RL-algoritmer med funktionsapproximation (till exempel djupa RL-algoritmer där Q-funktionen approximeras av utgången från ett neuralt nätverk)
  • lösa banditoptimeringsproblem.

Kurslitteratur och förberedelser

Särskild behörighet

För fristående kursstuderande: 120 hp samt dokumenterade kunskaper i engelska B eller motsvarande.

Utrustning

Ingen information tillagd

Kurslitteratur

Ingen information tillagd

Examination och slutförande

När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.

Betygsskala

A, B, C, D, E, FX, F

Examination

  • HEM1 - Hemuppgift 1, 1,0 hp, betygsskala: P, F
  • HEM2 - Hemuppgift 2, 1,0 hp, betygsskala: P, F
  • LAB1 - Lab 1, 1,0 hp, betygsskala: P, F
  • LAB2 - Lab 2, 1,0 hp, betygsskala: P, F
  • TENA - Skriftlig tentamen, 3,5 hp, betygsskala: A, B, C, D, E, FX, F

Examinator beslutar, baserat på rekommendation från KTH:s handläggare av stöd till studenter med funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.

Examinator får medge annan examinationsform vid omexamination av enstaka studenter.

Möjlighet till komplettering

Ingen information tillagd

Möjlighet till plussning

Ingen information tillagd

Examinator

Etiskt förhållningssätt

  • Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
  • Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
  • Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.

Ytterligare information

Kursrum i Canvas

Registrerade studenter hittar information för genomförande av kursen i kursrummet i Canvas. En länk till kursrummet finns under fliken Studier i Personliga menyn vid kursstart.

Ges av

Huvudområde

Elektroteknik

Utbildningsnivå

Avancerad nivå

Påbyggnad

Ingen information tillagd

Kontaktperson

Alexandre Proutiere (alepro@kth.se)

Övrig information

https://www.kth.se/student/kurser/kurs/EL2805.

I denna kurs tillämpas EECS hederskodex, se:
http://www.kth.se/eecs/utbildning/hederskodex.