» »

stemming, variations, lemmatization, character folding in slovenščina

stemming, variations, lemmatization, character folding in slovenščina

buandrej ::

pozdrav

lotil sem se izdelave iskalnika v spletni aplikaciji. ta je narejena v pythonu (web2py), za iskalnik sem uporabil whoosh.
pri tem sem naletel na pojme, ki so tudi v naslovu teme: stemming, variations, lemmatization, character folding.
in sedaj me zanima: kaj od tega obstaja za slovenščino, po možnosti že za python? oz. se da kaj priredit (tudi za angleščino je v whoosh prirejeno iz jave)

andrej

Mavrik ::

Uporabiš lahko lematizator LemmaGen, ki so ga razvili na IJS.

Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.

Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.
The truth is rarely pure and never simple.

Zgodovina sprememb…

  • spremenil: Mavrik ()

buandrej ::

Najbolj enostavno za uporabo (z Whoosh) bi bilo, če bi v pystemmer uspel zapakirat slovenščino.
Postopek tule http://stackoverflow.com/questions/8714... mi uspe naredit do izdelave dveh datotek: stem_UTF_8_slovene.c, stem_ISO_8859_2_slovene.c
Potem pa ne vem, kako to zapakirat v pystemmer. Kakšna ideja?


lp

andrej

acookook ::

Mavrik je izjavil:

Uporabiš lahko lematizator LemmaGen, ki so ga razvili na IJS.

Starejšo C različica (za katero lahko spišeš Python bindinge) in pokriva lematizacijo (in Java bindinge ter modul za Solr) lahko najdeš v mojem BitBucket repozitoriju tule.

Za character folding pa lahko najdeš zelo preprost slovar v izvorni kodi Lucene-a.

Zdravo!
Ravno hočem nucat tale Lemmagen pa dobivam neke errorje. Trenutno probavam zadnjo opcijo
python setup.py install
, moram pa verjetno drug interpreter namestit. Ker tale mi javlja
 [Errno 13] Permission denied: 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.10_3.10.3056.0_x64__qbz5n2kfra8p0\\Lib\\site-packages\\test-easy-install-16068.write-test'
.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Kako in kam deployati lastne aplikacije

Oddelek: Programiranje
111585 (739) keworkian
»

Kateriega git repository providerja uporabljate?

Oddelek: Programiranje
171948 (1190) Spura
»

Sinhronizacija dveh računalnikov, programiranje

Oddelek: Programska oprema
81802 (1464) matejm1994
»

Source version control za domačo uporabo?

Oddelek: Programiranje
357052 (6123) MrBrdo
»

[python] prednosti in slabosti

Oddelek: Programiranje
132571 (2147) Gundolf

Več podobnih tem