Forum » Programiranje » stemming, variations, lemmatization, character folding in slovenščina
stemming, variations, lemmatization, character folding in slovenščina
buandrej ::
pozdrav
lotil sem se izdelave iskalnika v spletni aplikaciji. ta je narejena v pythonu (web2py), za iskalnik sem uporabil whoosh.
pri tem sem naletel na pojme, ki so tudi v naslovu teme: stemming, variations, lemmatization, character folding.
in sedaj me zanima: kaj od tega obstaja za slovenščino, po možnosti že za python? oz. se da kaj priredit (tudi za angleščino je v whoosh prirejeno iz jave)
andrej
lotil sem se izdelave iskalnika v spletni aplikaciji. ta je narejena v pythonu (web2py), za iskalnik sem uporabil whoosh.
pri tem sem naletel na pojme, ki so tudi v naslovu teme: stemming, variations, lemmatization, character folding.
in sedaj me zanima: kaj od tega obstaja za slovenščino, po možnosti že za python? oz. se da kaj priredit (tudi za angleščino je v whoosh prirejeno iz jave)
andrej
Mavrik ::
Uporabiš lahko lematizator LemmaGen, ki so ga razvili na IJS.
Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.
Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.
Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
The truth is rarely pure and never simple.
Zgodovina sprememb…
- spremenil: Mavrik ()
buandrej ::
Najbolj enostavno za uporabo (z Whoosh) bi bilo, če bi v pystemmer uspel zapakirat slovenščino.
Postopek tule http://stackoverflow.com/questions/8714... mi uspe naredit do izdelave dveh datotek: stem_UTF_8_slovene.c, stem_ISO_8859_2_slovene.c
Potem pa ne vem, kako to zapakirat v pystemmer. Kakšna ideja?
lp
andrej
Postopek tule http://stackoverflow.com/questions/8714... mi uspe naredit do izdelave dveh datotek: stem_UTF_8_slovene.c, stem_ISO_8859_2_slovene.c
Potem pa ne vem, kako to zapakirat v pystemmer. Kakšna ideja?
lp
andrej
acookook ::
Uporabiš lahko lematizator LemmaGen, ki so ga razvili na IJS.
Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.
Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
Zdravo!
Ravno hočem nucat tale Lemmagen pa dobivam neke errorje. Trenutno probavam zadnjo opcijo
python setup.py install, moram pa verjetno drug interpreter namestit. Ker tale mi javlja
[Errno 13] Permission denied: 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.10_3.10.3056.0_x64__qbz5n2kfra8p0\\Lib\\site-packages\\test-easy-install-16068.write-test'
.
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | Kako in kam deployati lastne aplikacijeOddelek: Programiranje | 1584 (738) | keworkian |
» | Kateriega git repository providerja uporabljate?Oddelek: Programiranje | 1948 (1190) | Spura |
» | Sinhronizacija dveh računalnikov, programiranjeOddelek: Programska oprema | 1802 (1464) | matejm1994 |
» | Source version control za domačo uporabo?Oddelek: Programiranje | 7051 (6122) | MrBrdo |
» | [python] prednosti in slabostiOddelek: Programiranje | 2571 (2147) | Gundolf |