Kursen ger en djupgående behandling av de moderna teoretiska verktygen som används för att utforma och analysera förstärkande inlärningsalgoritmer (RL-algoritmer). Den innehåller en introduktion till RL och dess klassiska algoritmer som Q-learning och SARSA, och presenterar vidare motiveringen bakom utformningen av de senaste algoritmerna, såsom de slående optimala avvägningarna mellan prospektering och exploatering. Kursen täcker även algoritmer som används i de senaste framgångshistorierna för RL, t.ex. djupa RL-algoritmer.
Markovkedjor, Markovbeslutsprocessproblem (MDP), dynamisk programmering, värde- och policyiterationer, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit-problemet, RL-algoritmer (Q-learning, Q-learning med funktionsapproximation).