Presentation av examensarbete Kandidat/Högskoleingenjör
Titel: Smart Clustering System for Filtering and Cleaning User Generated Content
Respondent: Arvin Moradi
Opponent:  Vahid Shirvani 
Språk: Svenska/engelska
Tid:  Torsdag den 11 april kl 10
Plats: Företaget Truecaller, True Software Scandinavia AB, Jakobsbergsgatan 6, Stockholm 
Önskar du närvara vid presentationen så kontakta Anders Sjögren 087904420 senast 2013-04-10-16 kl 1700

Sammanfattning

Denna avhandling fokuserar på att utreda och skapa en applikation för filtrering utav användargenererat innehåll, för företaget True Software Scandinavia AB. De är kända för sin mobil applikation TrueCaller, som är en global telefonkatalog med över en halv miljard nummer i sin databas, så det är mycket viktigt att TrueCaller kan ge giltig data till sina användare.
Metoden var att undersöka hur svordom eller ras ord används och manipuleras, för att kunna skapa den perfekta applikationen för företaget. Prestanda var också en stor faktor vid behandlingen av personuppgifter, vilket var anledningen till att jag gjorde en undersökning på olika algoritmer för sträng matchning.
Resultaten visade att applikationen upptäckte svordomar samt manipulerade svordomar som inte är så tydliga att upptäcka. Testdata från Truecallers databas användes också för att testa, och resultaten var en normal fördelad diagram, som visade oss att för varje 5000 namn, var sannolikheten att få 4 fula ord den högsta. Resultatet av prestanda testet visade oss att vi kan approximera att den börjar som en linjär kurva i diagrammet.
Prestanda gav ett relativt bra resultat och kraven på att kunna hantera miljontals namn per dag, har uppnåts. En större skala av tester kan göras för att se om tillväxten kommer att stanna linjär eller om det kommer att vända sig till en exponentiell eller logaritmisk kurva var den första är underlägsen och den andra överlägsen. Poängsystem, tredje parts tjänster och mänskliga administrativt system är möjliga mål för att förbättra tillämpningen i framtiden.
Nyckelord: Java, REST, Jersey, Filter, linear funktion, MongoDB, Ma-ven, String matchning, algorithm, B-Tree, Hashmap, Aho-Corasick.