Application-level Chaos Engineering
Tid: Ti 2022-11-29 kl 09.00
Plats: F3, Lindstedtsvägen 26 & 28, Stockholm
Videolänk: https://kth-se.zoom.us/j/61717169026
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Long Zhang , Teoretisk datalogi, TCS
Opponent: Professor Leon Moonen, Simula Research Laboratory, Oslo, Norway
Handledare: Professor Martin Monperrus, Teoretisk datalogi, TCS; Professor Benoit Baudry, Programvaruteknik och datorsystem, SCS
QC 20221102
Abstract
Modern mjukvarusystem blir allt mer komplex i samband med ett växande behov av digitalisering i samhället. För att bibehålla tillförlitligheten gentemot det ökande komplexitetet i systemet, löser utvecklare detta genom att introducera olika felhantering mekanismer som utvärderas med rigorösa tester och verifieringar både i test- och produktionsmiljö för säkerställandet av ett fungerade system. För utvärdering av produktionsmiljö, kan kaosteknik appliceras genom att först övervaka systemet för identifiering av dess stabila tillstånd. Sedan kan specifika och kontrollerbara fel injiceras för att aktivera de nämnda felhantering mekanismer som producerar utdata. Denna utdatan fångas upp för att jämföra med de beteende hos systemet i sitt stabila tillstånd i målet att verifiera om mekanismerna fungerar som förväntas.
Inom området kaosteknik finns det fortfarande tekniska utmaningar som påverkar effektiviteten. Denna avhandling ger bidrag till följande tre öppna utmaningar inom kaosteknik.
Först och främst, eftersom kaostekniska experiment görs i produktionen, är det viktigt att förbättra effektiviteten i dessa experiment. För att minska orealistiska experiment föreslår vi ett nytt tillvägagångssätt som syntetiserar kaostekniska felmodeller med hjälp av de naturliga felen i produktionen.
För det andra, för att analysera ett systems steady state och upptäcka dess onormala beteende under kaostekniska experiment, är tillräcklig observerbarhet nyckeln. Vi föreslår en lösning för förbättring av observerbarhet i flera lager för Dockeriserade Java-applikationer. Med hjälp av vår lösning kan utvecklare förbättra en applikations observerbarhet på operativsystemnivå, körtidsmiljönivå och applikationsnivå, med begränsad ansträngning.
Till sist borde kaosteknik vara till hjälp för att hitta faktiska platser för förbättringar av motståndskraften. Vi föreslår tre felinjektionsmetoder som tillämpar kaosteknik på applikationsnivå för att ta hänsyn till domänspecifik kunskap.