Resurser
- Flera användbara verktyg för svenska hittar du bland Språkteknologigruppens verktyg. Längst ner på sidan står hur man anropar servrar för taggning, grammatikgranskning, ordledsuppdelning och böjning av ord.
- Weka är en bra verktygslåda för maskininlärning. Här är en testfil till Weka. Det finns övriga verktygslåda som SKLearn.
- Användbara korpusar, hittar du t.ex. hos Språkbanken, mer specifikt här.
- Det finns även en korpus med svensk text (ca 3,3 miljoner ord) att kopiera från kurskatalogen: /info/sprakt12/korpus
- British National Corpus (100 miljoner taggade ord) finns under katalogen /afs/nada.kth.se/pkg/corpus/1.0/
- Google har publicerat n-gram-statistik för engelska och några andra språk (tyvärr inte svenska).
- Norska Metashare har publicerat n-gram-statistik för svenska.
- Natural Language ToolKit har en massa användbar Python-kod och en mängd (engelska) korpusar.
- Här finns ett användbart Java-bibliotek för Hidden Markov Models (HMMs).
- Verktyg för att skapa word embeddings GenSim
---------------------------------------------------------------------------------------------------
- Usable to tools för Swedish can be found in the Language Technologies Group Tools. At the bottom of the page some useful servers are described.
- Weka is an good toolbox for machine learning. Here you find a test file to be used Weka. Other tools are SKLearn.
- Usable corpora, you can find for instance at Språkbanken, specifically here.
- There is also a corpus with Swedish text (about 3.3 million words) that can be copied from the course folder: /info/sprakt12/korpus
- The British National Corpus (a 100 million word POS tagged corpus) can be found in the following directory: /afs/nada.kth.se/pkg/corpus/1.0/
- Google has released n-gram-stats for English and a couple of other languages (unfortunately not Swedish).
- Metashare from Norway has published n-gram-stats for Swedish.
- Natural Language ToolKit has a bunch of Python code and a number of English corpora.
- Here you can find a Java-library för Hidden Markov Models (HMMs).
- Tool to generate word embeddings GenSim