Presentation av examensarbete för högskoleingenjörsexamen

Titel: Komparera prestanda mellan centraliserad och decentraliserad datainsamling
Respondent: Filip Hidén och Magnus Qvarnström
Dag, Datum och Tid: Torsdag 2020-06-04 kl 16.00
Plats: Webb-möte (online-möte) med uppkoppling via Zoom:  se denna länk
Opponenter: (max 3 st), kontakta respondenter för opponering på rapport.
Examinator: Anders Sjögren, handledare Mira Kajko-Mattsson
Språk: Muntligt på svenska, presentationsbilder på engelska/svenska (frågor kan ställas på engelska).
Anmälan: Anmälan för lyssnarnärvaro behövs ej för besökare.  "Aktiva lyssnare" anmäler sig till as@kth.se senast en dag i förväg.

Abstract

I den moderna världen används data och information på en större skala än någonsin tidigare. Mycket av denna information och data kan hittas på internet i många olika former som artiklar, filer, websidor med mera.

Om man försöker att starta ett nytt projekt eller företag som är beroende av delar av denna data behövs det ett sätt att effektivt söka igenom den, sortera ut det som söks och samla in den för att hanteras. Ett vanligt sätt att göra detta är en metod som kallas webscraping, som kan implementeras på flera olika sätt för att söka och samla in den funna datan. För små företag kan detta bli en kostsam satsning, då webscraping är en intensiv process som vanligtvis kräver att man måste betala för att driva en tillräckligt kraftfull server som kan hantera datan.

Syftet med denna rapport är att undersöka om det finns giltiga och billigare alternativ för att implementera webscraping lösningar, som inte kräver tillgång till kostsamma server lösningar.

För att svara på detta utfördes en undersökning runt webscraping, samt olika system arkitekturer som används för att utveckla dessa system i den nuvarande marknaden samt hur de kan implementeras. Med denna kunskap utveckaldes en webscraping applikation som anpassades för att samla in ingredienser från recept artiklar på internet. Denna implementation anpassades sedan för två olika lösningar, en centraliserad på en server och en decentraliserad, för Android enheter. Till slut summerades all den insamlade faktan, tillsammans med enhetstester utförda på test implementationerna för att få ut ett resultat.

Slutsatsen som drogs av detta resultat var att decentraliserade android implementationer är en giltig och funktionell lösning för webscraping idag, men skillnaden i prestanda innebär att det inte alltid är en användbar lösning, istället måste det bestämmas beroende på ett företags behov och specifikationer. Dessutom är forskningen runt detta ämne begränsat, och kräver vidare
undersökning och fördjupning för att förbättra kunskaper och implementationer av detta område i framtiden.

Keywords:

Kandidat examensarbete, Web Scraping, datainsamling, centralierad Web Scraping, decentraliserad Web Scraping, Andoid, mobila enheter,