Forum » Programiranje » Python - Kako preverit, ali je črka japonska (ali korejska)?
Python - Kako preverit, ali je črka japonska (ali korejska)?
HotBurek ::
Dobro jutro.
Evo, nov dan, ponedeljek, in nov izziv.
Tokrat je težava, kako iz string-a za vsak znak preverit, ali gre za črko japonske (ali korejske) abecede.
Input string je sledeč (če ne bo spet "konvertal" v ???):
Tule sem našel, kako za posamično črko preverjat, če je v določenem unicode rangu:
https://stackoverflow.com/questions/720...
Tule sem našel range za japonske črke:
https://stackoverflow.com/questions/198...
Japanese-style punctuation ( 3000 - 303f)
Hiragana ( 3040 - 309f)
Katakana ( 30a0 - 30ff)
Full-width roman characters and half-width katakana ( ff00 - ffef)
CJK unifed ideographs - Common and uncommon kanji ( 4e00 - 9faf)
Seznam PDF-jev za posamični rang:
https://www.unicode.org/charts/PDF/
Trenutno mi je uspelo narediti za japonske črke (katakana).
Imam pa še eno črko, ki mislim da je korejska (dec=44032, hex=0xac00). Za to črko pa še ne vem, v kater unicode rang spada.
--------------------------------------------------
UPDATE
Sem našel, da gre za Hangul Syllables.
Range: ac00 - d7af
PDF: https://www.unicode.org/charts/PDF/UAC0...
Evo, nov dan, ponedeljek, in nov izziv.
Tokrat je težava, kako iz string-a za vsak znak preverit, ali gre za črko japonske (ali korejske) abecede.
Input string je sledeč (če ne bo spet "konvertal" v ???):
string1 = "ペイズリー-čšž-가";
Tule sem našel, kako za posamično črko preverjat, če je v določenem unicode rangu:
https://stackoverflow.com/questions/720...
Tule sem našel range za japonske črke:
https://stackoverflow.com/questions/198...
Japanese-style punctuation ( 3000 - 303f)
Hiragana ( 3040 - 309f)
Katakana ( 30a0 - 30ff)
Full-width roman characters and half-width katakana ( ff00 - ffef)
CJK unifed ideographs - Common and uncommon kanji ( 4e00 - 9faf)
Seznam PDF-jev za posamični rang:
https://www.unicode.org/charts/PDF/
Trenutno mi je uspelo narediti za japonske črke (katakana).
Imam pa še eno črko, ki mislim da je korejska (dec=44032, hex=0xac00). Za to črko pa še ne vem, v kater unicode rang spada.
--------------------------------------------------
UPDATE
Sem našel, da gre za Hangul Syllables.
Range: ac00 - d7af
PDF: https://www.unicode.org/charts/PDF/UAC0...
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
- spremenilo: HotBurek ()
DamijanD ::
Zakaj ti je pa bistveno iz katere "abecede" je posamezen znak/črka? Kaj je biznis case tukaj?
HotBurek ::
Ker želim iz input stringa prenest samo črke.
Trenutno imam seznam črk, verjetno vseh evropskih abeced. Tu so vse črke z raznimi dodatki, ala pikice, črtice in ostalega, kar lahko okrasuje osnovne črke.
Za japonske (in korejske) pa nimam seznama, in ga tudi ne bom šel delat. Ugibam, da imajo po par tisoč teh črk in to je preveč.
Zato je z pretvorbo črke v unicode cifro (oz. hex vrednost) in preverjanjem, ali je znotraj določenega unicode ranga, kar vredu rešitev.
Trenutno imam seznam črk, verjetno vseh evropskih abeced. Tu so vse črke z raznimi dodatki, ala pikice, črtice in ostalega, kar lahko okrasuje osnovne črke.
Za japonske (in korejske) pa nimam seznama, in ga tudi ne bom šel delat. Ugibam, da imajo po par tisoč teh črk in to je preveč.
Zato je z pretvorbo črke v unicode cifro (oz. hex vrednost) in preverjanjem, ali je znotraj določenega unicode ranga, kar vredu rešitev.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | Kje in kako dobiti vse črke abecede? (strani: 1 2 )Oddelek: Programiranje | 5737 (4035) | Gagatronix |
» | MojeDelo.com praznični maratonski IT hekatonOddelek: Loža | 3803 (1473) | Pimoz |
» | Python permutacije slo. besedOddelek: Programiranje | 2308 (1754) | epsilon |
» | Pomoč pri nalogi za faks (pretvarjanje UTF8 to Unicode)Oddelek: Programiranje | 808 (470) | Randomness |
» | [c++] cirilicaOddelek: Programiranje | 1870 (1686) | neett1 |