» »

Python - Kako preverit, ali je črka japonska (ali korejska)?

Python - Kako preverit, ali je črka japonska (ali korejska)?

HotBurek ::

Dobro jutro.

Evo, nov dan, ponedeljek, in nov izziv.

Tokrat je težava, kako iz string-a za vsak znak preverit, ali gre za črko japonske (ali korejske) abecede.

Input string je sledeč (če ne bo spet "konvertal" v ???):

string1 = "ペイズリー-čšž-가";

Tule sem našel, kako za posamično črko preverjat, če je v določenem unicode rangu:
https://stackoverflow.com/questions/720...

Tule sem našel range za japonske črke:
https://stackoverflow.com/questions/198...

Japanese-style punctuation ( 3000 - 303f)
Hiragana ( 3040 - 309f)
Katakana ( 30a0 - 30ff)
Full-width roman characters and half-width katakana ( ff00 - ffef)
CJK unifed ideographs - Common and uncommon kanji ( 4e00 - 9faf)

Seznam PDF-jev za posamični rang:
https://www.unicode.org/charts/PDF/

Trenutno mi je uspelo narediti za japonske črke (katakana).

Imam pa še eno črko, ki mislim da je korejska (dec=44032, hex=0xac00). Za to črko pa še ne vem, v kater unicode rang spada.

--------------------------------------------------

UPDATE

Sem našel, da gre za Hangul Syllables.

Range: ac00 - d7af

PDF: https://www.unicode.org/charts/PDF/UAC0...
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
  • spremenilo: HotBurek ()

DamijanD ::

Zakaj ti je pa bistveno iz katere "abecede" je posamezen znak/črka? Kaj je biznis case tukaj?

HotBurek ::

Ker želim iz input stringa prenest samo črke.

Trenutno imam seznam črk, verjetno vseh evropskih abeced. Tu so vse črke z raznimi dodatki, ala pikice, črtice in ostalega, kar lahko okrasuje osnovne črke.

Za japonske (in korejske) pa nimam seznama, in ga tudi ne bom šel delat. Ugibam, da imajo po par tisoč teh črk in to je preveč.

Zato je z pretvorbo črke v unicode cifro (oz. hex vrednost) in preverjanjem, ali je znotraj določenega unicode ranga, kar vredu rešitev.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

mm&r ::

Spura ::

Torej hoces vse kar je unicode letter? Torej regex \p{L}?


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Kje in kako dobiti vse črke abecede? (strani: 1 2 )

Oddelek: Programiranje
555737 (4035) Gagatronix
»

MojeDelo.com praznični maratonski IT hekaton

Oddelek: Loža
463803 (1473) Pimoz
»

Python permutacije slo. besed

Oddelek: Programiranje
152308 (1754) epsilon
»

Pomoč pri nalogi za faks (pretvarjanje UTF8 to Unicode)

Oddelek: Programiranje
9808 (470) Randomness
»

[c++] cirilica

Oddelek: Programiranje
61870 (1686) neett1

Več podobnih tem