» »

[Python] Kater codec za korejske črke?

[Python] Kater codec za korejske črke?

HotBurek ::

Dobro jutro.

Evo, fantje in dekline, nov dan in nov izziv je že tu.

Python codecs

Torej, kater codec je potrebno uporabi za pravilno dekodiranje (skoraj sigurno verjetno) korejskih črk za spodnji primer?

Kot je razvidno iz output-a (spodaj slika), sta zadnja dva verjetno najbljiže tistemu, kar bi moralo biti. Čeprav, niti ne vem, kaj bi moralo biti. Mogoče je že source popače (spletni nemarnež pa to).

Source web site: https://www.givenchy.com/int/ko/g-set-s...

Test run python sample:

import requests;
import requests.packages;
import bs4;

requests.packages.urllib3.disable_warnings();

url = "https://www.givenchy.com/int/ko/g-set-sneakers-in-leather-and-suede/BH00ALH1U7-002.html";

response = requests.get(url, allow_redirects=False, verify=False, timeout=20);

encoding_list = [
    "iso2022-kr",
    "cp949",
    "euc-kr",
    "utf-8-sig",
    "ks-x-1001",
    "johab",
    "iso2022_jp",
    "iso2022_jp_1",
    "iso2022_jp_2",
    "iso2022_jp_3",
    "iso2022_jp_ext",
    "euc_jp",
    "euc_jis_2004",
    "euc_jisx0213",
    "shift_jis",
    "shift_jis_2004",
    "shift_jisx0213"
];

for i in range(0, len(encoding_list)):

    use_this_encoding = encoding_list[i];

    response_text = response.content.decode(use_this_encoding, errors="replace");

    soup = bs4.BeautifulSoup(response_text, features="html.parser");

    meta_og_title = soup.find("meta", attrs={"property": "og:title"});

    title = "";

    if meta_og_title is not None and meta_og_title.has_attr("content"):

        title = meta_og_title["content"];

    padding_count = 16 - len(use_this_encoding);

    padding = "";

    for j in range(0, padding_count):

        padding = padding + " ";

    print(str(use_this_encoding) + str(padding) + str(title));

Output:


Pa še muska za na izi (prvi link): Natsumero for the Soul: Nostalgic Melodies from Japan with SANA
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

socialec ::

utf-8 ali na kaj misliš?
<meta charset="UTF-8">

immortan ::

dokumentacija: https://docs.python.org/3.13/library/co...

iso2022_kr mogoče?

Zgodovina sprememb…

  • spremenilo: immortan ()

socialec ::

zdi se nenavadno vprašanje nasploh, mora biti nekaj specifičnega za pythoniste...
ne vem, da bi drugi imeli kakšne težave s tovrstnim včitovanjem, če je charset definiran v izvorni kodi.
meta content taga pa nima

socialec ::

joj no, se opravičujem, ker sem dokazal svoje nepoznavanje parsanje lokaliziranih dokumentov - parsanje in analiziranje raznih napovedi je dosti bolj enostavno, to sem mislil.

bm1973 ::

Mislim, kdaj bo šel svet na UTF-16?!?!?

HotBurek ::

Ok, zadevo bom dal na pavzo, ker... well, mislim, da gre za "spletni nemarnež" situacijo, čeprav po drugi strani pa dvomim v to.

No, naj vsak poizkusi spodnja dva linka:

KO https://www.givenchy.com/int/ko/g-set-s...
JP https://shorturl.at/xbfNY spet ta kurac z "posebnimi" črkami (v tem primeru japonske) zato je ta link potem redirect na tja k je treba...

Gre za isti izdelek, amapk za KO meni prikaže škatlice, za JP pa lepo njihove črke.

In zgoraj sem dal primer Python kode, kjer je seznam vseh codec-ov, kater sem testiral, ter potem spodaj v sliki rezultate za posamezni codec.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

  • spremenilo: HotBurek ()

bemfa ::

Si probal mp2 codec? mp4 je za video, mp3 za muziko, mogoče je mp2 za tekst :))

socialec ::

meni lepo pokaže, nobenih škatel
G 세트 가죽 및 스웨이드 스니커즈
Gセット スニーカー レザー&スエード

HotBurek ::

Jst tvoj post vidim takole:

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

socialec ::

Zanimivo, hmm, na pamet govorim - mogoče je s tvojimi nastavitvami ali z browserjem, da tega ne interpretira pravilno? Imaš vsiljen encoding? Namenoma entitizirano, da bi prikazalo - bom pa se posvetoval s 'kolegom', če se sam ne boš prej... Mogoče imaš kakšen blesav font ali kaj?
 OutOfThe...

OutOfThe...

Zgodovina sprememb…

  • spremenilo: socialec ()

HotBurek ::

Dela!

Rešitev: apt-get install fonts-unfonts-core

HOWTO get Korean input on Debian

Why don't we have japanese and korean fonts by default?

Tester page: Samples of Unicode character ranges

(tu poiščeš Ctrl+F "hangul" in greš čez vseh 5)

Firefox je nov font zagrabil brez restarta.

Java based programa (PyCharm, DBeaver) sta potrebovala restart.

All is good now.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

  • spremenilo: HotBurek ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

[Python] Response encoding 2.0

Oddelek: Programiranje
7360 (144) HotBurek
»

Šumniki v php-ju

Oddelek: Izdelava spletišč
214816 (3319) JoSmo
»

Pomoč pri spletni strani (strani: 1 2 3 )

Oddelek: Izdelava spletišč
1218310 (5771) gepard69
»

ubuntu LaTeX sumniki

Oddelek: Programska oprema
134380 (4183) atasmrk
»

jebe*** šumniki

Oddelek: Izdelava spletišč
404322 (3728) Tr0n

Več podobnih tem