Banditmetoder för Nätverksoptimering
Säkerhet, Utforskning och Koordinering
Tid: Må 2023-10-30 kl 09.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Språk: Engelska
Ämnesområde: Elektro- och systemteknik
Respondent: Filippo Vannella , Reglerteknik
Opponent: Associate Professor Vincent Tan, Department of Mechanical Engineering, National University of Singapore, Singapore
Handledare: Alexandre Proutiere, Reglerteknik
QC 20231009
Abstract
Den ökande komplexiteten hos moderna mobila nätverk skapar nya oöverträffade utmaningar. Mobiloperatörer behöver kontrollera ett stort antal nätverksparametrar för att tillfredsställa användarnas krav. Antennlutning är ett viktigt exempel på en kontrollerbar nätverksparameter som har betydande effekter på nätverkstäckning och nätverkskapacitet. Sekventiella inlärningsalgoritmer har framträtt som lovande verktyg för kontroll av nätverksparametrar och för att minska driftskostnader. Banditmetoder är sekventiella inlärningsmetoder där en agent interagerar med en miljö för att lära sig en optimal kontrollstrategi med avseende på ett givet mål. Dessa metoder medför dock egna utmaningar när det gäller säkerhet, utforskning och koordination. I den här avhandlingen studerar vi antennlutningsoptimeringsproblemet med banditmetoder med fokus på dessa utmaningar.
Vi undersöker först fsäkerhetsaspekten med hjälp av offline off-policy inlärningsmetoder i Contextual Bandits (CBs). Målet är att lära sig en förbättrad målpolicy, enbart från offline-data insamlad av en loggningspolicy. Baserat på detta data härleds en målpolicy genom att minimera uppkattade risken på målpolicien. Vi lär oss och utvärderar flera antennlutningspolicies med hjälp av verkliga nätverksdata och visar att dessa metoder kan lära sig förbättrade lutningskontrollpolicies, på ett säkert sätt.
Sedan fokuserar vi på utforskningssidan inom ett Best Policy Identification-inställning i Contextual Linear Bandits (CLBs), där belöningen har en bekväm linjär struktur. Målet är att, med så lite data som möjligt, identifiera en optimal policy. Vi härleder nedre gränser för antalet dataexempel som krävs av vilken algoritm som helst som returnerar en appriximativt optimal policy. Vi utvecklar algoritmer som lär sig optimala lutningskontrollpolicies från befintlig data (passiv inlärning) eller från data genererad av algoritmen (aktiv inlärning). Vi visar experimentellt att våra algoritmer producerar optimala antennlutningskontrollpolicies med färre prover än regelbaserade algoritmer.
Vi utforskar koordinationsaspekten genom att undersöka antennlutningsoptimeringsproblemet i ett fleragents-banditinscenario med en kopplad belöningsstruktur. Vi undersöker både Best Arm Identification (BAI) och Regret Minimization (RM). I BAI är målet att hitta en optimal global åtgärd med minimal dataexempelkomplexitet, medan i RM är målet att maximera den kumulativa belöningen över flera omgångar. Vi härleder instansspecifika nedre gränser för dataexempelkomplexiteten och ånger, som karaktäriserar den motsvarande optimala dataexempeltagningstrategin. Tyvärr erhålls dessa gränser genom att lösa kombinatoriska optimeringsproblem som är svåra att lösa och inte kan utnyttjas i utformningen av effektiva algoritmer. Inspirerade av Mean Field (MF)-approximationsmetoder utvecklar vi därfor en familj av approximationer till dessa problem och utforskar avvägningen mellan den uppnåeliga statistiska och beräkningsmässiga komplexiteten. Vi utvecklar algoritmer för BAI och RM vars provkomplexitet och ånger bevisligen matchar våra approximerade nedre gränser och tillämpar dessa algoritmer för att lösa antennlutningsoptimeringsproblemet.