Forum » Programiranje » stemming, variations, lemmatization, character folding in slovenščina
stemming, variations, lemmatization, character folding in slovenščina

buandrej ::
pozdrav
lotil sem se izdelave iskalnika v spletni aplikaciji. ta je narejena v pythonu (web2py), za iskalnik sem uporabil whoosh.
pri tem sem naletel na pojme, ki so tudi v naslovu teme: stemming, variations, lemmatization, character folding.
in sedaj me zanima: kaj od tega obstaja za slovenščino, po možnosti že za python? oz. se da kaj priredit (tudi za angleščino je v whoosh prirejeno iz jave)
andrej
lotil sem se izdelave iskalnika v spletni aplikaciji. ta je narejena v pythonu (web2py), za iskalnik sem uporabil whoosh.
pri tem sem naletel na pojme, ki so tudi v naslovu teme: stemming, variations, lemmatization, character folding.
in sedaj me zanima: kaj od tega obstaja za slovenščino, po možnosti že za python? oz. se da kaj priredit (tudi za angleščino je v whoosh prirejeno iz jave)
andrej

Mavrik ::
Uporabiš lahko lematizator LemmaGen, ki so ga razvili na IJS.
Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.
Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.
Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
The truth is rarely pure and never simple.
Zgodovina sprememb…
- spremenil: Mavrik ()

buandrej ::
Najbolj enostavno za uporabo (z Whoosh) bi bilo, če bi v pystemmer uspel zapakirat slovenščino.
Postopek tule http://stackoverflow.com/questions/8714... mi uspe naredit do izdelave dveh datotek: stem_UTF_8_slovene.c, stem_ISO_8859_2_slovene.c
Potem pa ne vem, kako to zapakirat v pystemmer. Kakšna ideja?
lp
andrej
Postopek tule http://stackoverflow.com/questions/8714... mi uspe naredit do izdelave dveh datotek: stem_UTF_8_slovene.c, stem_ISO_8859_2_slovene.c
Potem pa ne vem, kako to zapakirat v pystemmer. Kakšna ideja?
lp
andrej

acookook ::
Uporabiš lahko lematizator LemmaGen, ki so ga razvili na IJS.
Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.
Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
Zdravo!
Ravno hočem nucat tale Lemmagen pa dobivam neke errorje. Trenutno probavam zadnjo opcijo
python setup.py install, moram pa verjetno drug interpreter namestit. Ker tale mi javlja
[Errno 13] Permission denied: 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.10_3.10.3056.0_x64__qbz5n2kfra8p0\\Lib\\site-packages\\test-easy-install-16068.write-test'
.
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | Kako in kam deployati lastne aplikacijeOddelek: Programiranje | 1618 (772) | keworkian |
» | Kateriega git repository providerja uporabljate?Oddelek: Programiranje | 2022 (1264) | Spura |
» | Sinhronizacija dveh računalnikov, programiranjeOddelek: Programska oprema | 1832 (1494) | matejm1994 |
» | Source version control za domačo uporabo?Oddelek: Programiranje | 7214 (6285) | MrBrdo |
» | [python] prednosti in slabostiOddelek: Programiranje | 2597 (2173) | Gundolf |