Efficient Exploration and Robustness in Controlled Dynamical Systems
Tid: On 2023-09-13 kl 14.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Videolänk: https://kth-se.zoom.us/j/65648025970
Språk: Engelska
Ämnesområde: Elektro- och systemteknik Datalogi Matematisk statistik
Respondent: Alessio Russo , Reglerteknik, Statistical Learning for Control
Opponent: Associate Professor Marcello Restelli, Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano; Assistant Professor Nikolai Matni, Department of Electrical and Systems Engineering, University of Pennsylvania; Associate Professor Jana Tumova, Robotik, perception och lärande, RPL; Associate Professor Mikael Asplund, Department of Computer and Information Science, Linköping University
Handledare: Professor Alexandre Proutiere, Reglerteknik; Professor Henrik Sandberg, ACCESS Linnaeus Centre, Reglerteknik
QC 20230823
Abstract
I denna avhandling undersöker vi två distinkta ämnen. Den första delen av avhandlingen handlar om effektiv utforskning i multi-uppgift banditmodeller och modellfri utforskning i stora Markov beslutsprocesser (MDP). Detta avsnitt drivs av forskningsvärldens intresse på senaste tiden för att upptäcka optimala metoder för att navigera komplexa beslutsproblem. I den andra delen undersöker vi attackvektorer mot MDP:er och dynamiska system, vilket motiveras av forskningsvärldens senaste satsning på att förbättra säkerheten för maskininlärningsmodeller mot illvilliga attacker. Dessutom utforskar vi hur man kvantifierar osäkerhet i ett off-policy utvärderingsproblem, vilket speglar våra pågående insatser för att fördjupa förståelsen inom detta område.I den första delen av avhandlingen presenterar vi en undersökning av provkomplexiteten vid identifiering av den optimala armen i multi-uppgift banditproblem. I denna miljö kan en agent välja en uppgift och effektivt lära sig genom överföring av kunskap mellan uppgifter. Vi härleder instansspecifika undre gränser som varje sannolikt ungefärligt korrekt (PAC) algoritm bör uppfylla, vilket visar både teoretiskt och empiriskt betydande förbättringar i skalning jämfört med tidigare metoder. Därefter undersöker vi modellfri utforskning i förstärkningsinlärningsproblem (RL). Genom att använda ett informationsteoretiskt perspektiv fokuserar vi på den instansspecifika undre gränsen för det antal prover som behövs för att identifiera en nästan optimal policy. Vi utvecklar en approximation av denna undre gräns med kvantiteter som kan härledas med modellfria metoder. Detta leder till en ny modellfri utforskningsstrategi som är tillämplig på kontinuerliga MDP:er.I den andra delen av avhandlingen börjar vi med att undersöka två typer av attacker på MDP:er: de som ändrar observationerna och de som manipulerar offrets kontrollsignaler. Vi presenterar strategier för att utforma optimala attacker som minimerar den belöning som offret samlar in. Våra strategier visar hur osäkerheter som induceras av attacken kan modelleras med hjälp av ett ramverk för delvis observerbara MDP. Vi illustrerar också hur man utformar attacker med lägre detekterbarhet, genom att närma sig problemet ur ett statistiskt detektionsperspektiv. Därefter utforskar vi problemet med en avlyssnare som försöker upptäcka förändringar i en MDP. Genom att närma oss detta problem ur ett statistiskt detektionsperspektiv introducerar vi en ny definition av online-integritet baserad på den genomsnittliga informationsmängden per observation av det underliggande stokastiska systemet. Vi härleder övre gränser för integritet och beräknar policies som uppnår högre integritetsnivåer, och kompletterar vår analys med exempel och numeriska simuleringar. Slutligen presenterar vi en ny off-policy skattningsmetod baserad på konform prediktion som ger ett intervall som innehåller målpolicyns sanna belöning, och visar hur man hanterar fördelningsförskjutningen mellan mål och beteenderpolicy:er, samt bibehåller säkerhetsnivån samtidigt som intervallängden minskar.Därefter flyttar vi vårt fokus till linjära dynamiska system. Vi studerar förgiftningsattacker på datadrivna kontrollmetoder, med fokus på hur små förändringar i datasetet som induceras av en motståndare kan försämra kontrollmetoderna avsevärt och potentiellt destabilisera systemet. Vi föreslår en ny algoritm för att beräkna effektiva attacker och ger en teoretisk grund för vår strategi. Vi studerar även detekterbarheten av förgiftningsattacker, med fokus på datagiftets påverkan på minsta kvadratskattningar. Vi fastställer villkor under vilka mängden modeller som är kompatibla med datan inkluderar systemets sanna modell, och vi analyserar olika förgiftningsstrategier för angriparen. Baserat på de argument som presenteras här föreslår vi en smygande datagiftsattack på minsta kvadratuppskattaren som kan undgå klassiska statistiska tester.