Forum » Programiranje » [Python] Kater codec za korejske črke?
[Python] Kater codec za korejske črke?

HotBurek ::
Dobro jutro.
Evo, fantje in dekline, nov dan in nov izziv je že tu.
Python codecs
Torej, kater codec je potrebno uporabi za pravilno dekodiranje (skoraj sigurno verjetno) korejskih črk za spodnji primer?
Kot je razvidno iz output-a (spodaj slika), sta zadnja dva verjetno najbljiže tistemu, kar bi moralo biti. Čeprav, niti ne vem, kaj bi moralo biti. Mogoče je že source popače (spletni nemarnež pa to).
Source web site: https://www.givenchy.com/int/ko/g-set-s...
Test run python sample:
Output:
Pa še muska za na izi (prvi link): Natsumero for the Soul: Nostalgic Melodies from Japan with SANA
Evo, fantje in dekline, nov dan in nov izziv je že tu.
Python codecs
Torej, kater codec je potrebno uporabi za pravilno dekodiranje (skoraj sigurno verjetno) korejskih črk za spodnji primer?
Kot je razvidno iz output-a (spodaj slika), sta zadnja dva verjetno najbljiže tistemu, kar bi moralo biti. Čeprav, niti ne vem, kaj bi moralo biti. Mogoče je že source popače (spletni nemarnež pa to).
Source web site: https://www.givenchy.com/int/ko/g-set-s...
Test run python sample:
import requests; import requests.packages; import bs4; requests.packages.urllib3.disable_warnings(); url = "https://www.givenchy.com/int/ko/g-set-sneakers-in-leather-and-suede/BH00ALH1U7-002.html"; response = requests.get(url, allow_redirects=False, verify=False, timeout=20); encoding_list = [ "iso2022-kr", "cp949", "euc-kr", "utf-8-sig", "ks-x-1001", "johab", "iso2022_jp", "iso2022_jp_1", "iso2022_jp_2", "iso2022_jp_3", "iso2022_jp_ext", "euc_jp", "euc_jis_2004", "euc_jisx0213", "shift_jis", "shift_jis_2004", "shift_jisx0213" ]; for i in range(0, len(encoding_list)): use_this_encoding = encoding_list[i]; response_text = response.content.decode(use_this_encoding, errors="replace"); soup = bs4.BeautifulSoup(response_text, features="html.parser"); meta_og_title = soup.find("meta", attrs={"property": "og:title"}); title = ""; if meta_og_title is not None and meta_og_title.has_attr("content"): title = meta_og_title["content"]; padding_count = 16 - len(use_this_encoding); padding = ""; for j in range(0, padding_count): padding = padding + " "; print(str(use_this_encoding) + str(padding) + str(title));
Output:
Pa še muska za na izi (prvi link): Natsumero for the Soul: Nostalgic Melodies from Japan with SANA
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

socialec ::
zdi se nenavadno vprašanje nasploh, mora biti nekaj specifičnega za pythoniste...
ne vem, da bi drugi imeli kakšne težave s tovrstnim včitovanjem, če je charset definiran v izvorni kodi.
meta content taga pa nima
ne vem, da bi drugi imeli kakšne težave s tovrstnim včitovanjem, če je charset definiran v izvorni kodi.
meta content taga pa nima

socialec ::
joj no, se opravičujem, ker sem dokazal svoje nepoznavanje parsanje lokaliziranih dokumentov - parsanje in analiziranje raznih napovedi je dosti bolj enostavno, to sem mislil.

HotBurek ::
Ok, zadevo bom dal na pavzo, ker... well, mislim, da gre za "spletni nemarnež" situacijo, čeprav po drugi strani pa dvomim v to.
No, naj vsak poizkusi spodnja dva linka:
KO https://www.givenchy.com/int/ko/g-set-s...
JP https://shorturl.at/xbfNY spet ta kurac z "posebnimi" črkami (v tem primeru japonske) zato je ta link potem redirect na tja k je treba...
Gre za isti izdelek, amapk za KO meni prikaže škatlice, za JP pa lepo njihove črke.
In zgoraj sem dal primer Python kode, kjer je seznam vseh codec-ov, kater sem testiral, ter potem spodaj v sliki rezultate za posamezni codec.
No, naj vsak poizkusi spodnja dva linka:
KO https://www.givenchy.com/int/ko/g-set-s...
JP https://shorturl.at/xbfNY spet ta kurac z "posebnimi" črkami (v tem primeru japonske) zato je ta link potem redirect na tja k je treba...
Gre za isti izdelek, amapk za KO meni prikaže škatlice, za JP pa lepo njihove črke.
In zgoraj sem dal primer Python kode, kjer je seznam vseh codec-ov, kater sem testiral, ter potem spodaj v sliki rezultate za posamezni codec.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Zgodovina sprememb…
- spremenilo: HotBurek ()

HotBurek ::
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

socialec ::
Zanimivo, hmm, na pamet govorim - mogoče je s tvojimi nastavitvami ali z browserjem, da tega ne interpretira pravilno? Imaš vsiljen encoding? Namenoma entitizirano, da bi prikazalo - bom pa se posvetoval s 'kolegom', če se sam ne boš prej... Mogoče imaš kakšen blesav font ali kaj?
Zgodovina sprememb…
- spremenilo: socialec ()

HotBurek ::
Dela!
Rešitev: apt-get install fonts-unfonts-core
HOWTO get Korean input on Debian
Why don't we have japanese and korean fonts by default?
Tester page: Samples of Unicode character ranges
(tu poiščeš Ctrl+F "hangul" in greš čez vseh 5)
Firefox je nov font zagrabil brez restarta.
Java based programa (PyCharm, DBeaver) sta potrebovala restart.
All is good now.
Rešitev: apt-get install fonts-unfonts-core
HOWTO get Korean input on Debian
Why don't we have japanese and korean fonts by default?
Tester page: Samples of Unicode character ranges
(tu poiščeš Ctrl+F "hangul" in greš čez vseh 5)
Firefox je nov font zagrabil brez restarta.
Java based programa (PyCharm, DBeaver) sta potrebovala restart.
All is good now.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Zgodovina sprememb…
- spremenilo: HotBurek ()
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | [Python] Response encoding 2.0Oddelek: Programiranje | 360 (144) | HotBurek |
» | Šumniki v php-juOddelek: Izdelava spletišč | 4816 (3319) | JoSmo |
» | Pomoč pri spletni strani (strani: 1 2 3 )Oddelek: Izdelava spletišč | 8310 (5771) | gepard69 |
» | ubuntu LaTeX sumnikiOddelek: Programska oprema | 4380 (4183) | atasmrk |
» | jebe*** šumnikiOddelek: Izdelava spletišč | 4322 (3728) | Tr0n |