Ändringar mellan två versioner

Här visas ändringar i "Resurser" mellan 2016-11-30 11:51 av Viggo Kann och 2016-12-04 20:35 av Viggo Kann.

Resurser

* Flera användbara verktyg för svenska hittar du bland Språkteknologigruppens verktyg. Längst ner på sidan står hur man anropar servrar för taggning, grammatikgranskning, ordledsuppdelning och böjning av ord.
* Weka är en bra verktygslåda för maskininlärning. Här är en testfil till Weka. Det finns övriga verktygslåda som SKLearn.
* Användbara korpusar, hittar du t.ex. hos Språkbanken, mer specifikt här.
* Det finns även en korpus med svensk text (ca 3,3 miljoner ord) att kopiera från kurskatalogen: /info/sprakt12/korpus
* British National Corpus (100 miljoner taggade ord) finns under katalogen /afs/nada.kth.se/pkg/corpus/1.0/
* Google har publicerat n-gram-statistik för engelska och några andra språk (tyvärr inte svenska).
* Norska Metashare har publicerat n-gram-statistik för svenska.
* Natural Language ToolKit har en massa användbar Python-kod och en mängd (engelska) korpusar.
* Här finns ett användbart Java-bibliotek för Hidden Markov Models (HMMs).
* Verktyg för att skapa word embeddings GenSim
---------------------------------------------------------------------------------------------------

* Usable to tools för Swedish can be found in the Language Technologies Group Tools. At the bottom of the page some useful servers are described.
* Weka is an good toolbox for machine learning. Here you find a test file to be used Weka. Other tools are SKLearn.
* Usable corpora, you can find for instance at Språkbanken, specifically here.
* There is also a corpus with Swedish text (about 3.3 million words) that can be copied from the course folder: /info/sprakt12/korpus
* The British National Corpus (a 100 million word POS tagged corpus) can be found in the following directory: /afs/nada.kth.se/pkg/corpus/1.0/
* Google has released n-gram-stats for English and a couple of other languages (unfortunately not Swedish).
* Metashare from Norway has published n-gram-stats for Swedish.
* Natural Language ToolKit has a bunch of Python code and a number of English corpora.
* Here you can find a Java-library för Hidden Markov Models (HMMs).
* Tool to generate word embeddings GenSim