[Python] Kako dekodirat sledeč string? @ Slo-Tech

Forum » Programiranje »
[Python] Kako dekodirat sledeč string?

[Python] Kako dekodirat sledeč string?

HotBurek :: 18. sep 2022, 18:45

Dobro jutro.

Evo, preprosti string, kako ga konvertat v bralcu prijazni string?

name = "â\x80\x8eTwilight Princess, Volume â\x80\x8e6â\x80\x8eâ\x80\x8e";

\80\x8e je LRM (LEFT-TO-RIGHT MARK).
‎‎‎‎Python konverta \x80\x8e v oklepaj in mahjno škatlo z diagonalno črto.

Firefox če grem v inspect element, in potem edit, mi prikaže rdečo piko za ta znak.

Kako naj to konvertam v nekaj normalnega?

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

spremenilo: HotBurek (18. sep 2022 ob 18:45)

hbgqzR :: 18. sep 2022, 18:56

Ne vem ampak je dobro, da kdo kaj tudi tehničnega sprašuje na slo-tech.com :-)

Po ascii bi to naj bilo €  ?? Daj potem entitiziraj ali kaj. Mogoce je sestavljen glif iz vecih znakov?

kow :: 18. sep 2022, 19:16

Zakaj nisi prilepil celega stringa v byte obliki? â je ocitno ze interpretiran (z napacnim encodingom).
Sekvence byteov (stringi) lahko interpretiras na vec nacinov. Deterministicno ne mores vedeti kako ga je orig avtor interpretiral, kvecjemu hevristicno.

Ce na hitro ugibam, gre za mesanico japonscine in anglescine (zato tudi LRM znak). Nisem si pa vzel vec kot minuto brskanja. Bo moral povedati kdo, ki se bolje spozna na unicode in encodinge.

Zgodovina sprememb…

spremenil: kow (18. sep 2022 ob 19:19)

HotBurek :: 18. sep 2022, 20:29

Kako pa naj naredim capture http response?

Wireshakr mi izpiše ene 50 vrstic, in ne znam ven izluščit zadeve.

Da dodam še to. Če grem v FF v inspect element, potem pa še edit, mi prikaže rdečo piko za ta znak.

Drugje (view-source, wget + nano) prikaže zgolj presledek.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

hbgqzR :: 18. sep 2022, 20:36

Naredi si http clienta, ki ti potegne dol kot byte buffer in to zapišeš v binarni file in potem z nekim hex viewerjem pogledaš... Pretvorbe znakov v byte verjetno ni problem naredit ampak tega najbrž nočeš, ker se izgubi s pretvorbo.

HotBurek :: 18. sep 2022, 20:53

Sem z wget naredil download, ter uporabil whHexEditor.

Hex: 20 E2 80 8E 54 77 69 6C 69 67 68 74 20 50 72 69 6E 63 65 73 73 2C 20 56 6F 6C 75 6D 65 20 E2 80 8E 36 E2 80 8E E2 80 8E 20

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (18. sep 2022 ob 20:53)

hbgqzR :: 18. sep 2022, 20:59

Ti tale tvoj
20 E2 80 8E 54 77 69 6C 69 67 68 74 20 50 72 69 6E 63 65 73 73 2C 20 56 6F 6C 75 6D 65 20 E2 80 8E 36 E2 80 8E E2 80 8E 20
ali to kot html entittete
â€ŽTwilight Princess, Volume â€Ž6â€Žâ€Ž
že karkoli pomeni?

HotBurek :: 18. sep 2022, 21:00

Test run:

string = "20E2808E5477696C69676874205072696E636573732C20566F6C756D6520E2808E36E2808EE2808E20";

string2 = bytes.fromhex(string).decode("utf-8");

print("-->>" + (string2) + "<<--");

Output:

-->> ?Twilight Princess, Volume ?6?? <<--

Zanimivo, da PyCharm sploh ne izpiše ? znakov. So vidni šele, ko sem postal na ST.

Problem je, ker bi rad ta končni string peljal žez fukncijo, ko odstrani vsak znak, ki ni črka ali številka. In te grablice (â€Ž) pač ne pašejo zraven.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (18. sep 2022 ob 21:02)

hbgqzR :: 18. sep 2022, 21:03

če hočeš izpisati v html, moraš entitizirati (malenkostna stvar) - 41 -> ) -> A

iteriraj string in odstrani (prepisi v drugi) znake, ki niso iz želenega encoding-character set?

Zgodovina sprememb…

spremenilo: hbgqzR (18. sep 2022 ob 21:07)

HotBurek :: 18. sep 2022, 21:08

https://www.jarir.com/simon-schuster-uk...

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

hbgqzR :: 18. sep 2022, 21:12

HotBurek je 18. sep 2022 ob 21:08 izjavil:

https://www.jarir.com/simon-schuster-uk...

Izgleda, da lahko ignoriraš takšne specialne znake, najbrž gre za kakšno arabesko, besedilo v trdem je jasno.

Spura :: 18. sep 2022, 21:15

HotBurek je 18. sep 2022 ob 21:08 izjavil:

https://www.jarir.com/simon-schuster-uk...

Vsak GET s katerim potegnes HTML dokument ima character encoding ali v meta elementu v HTML ali pa v headerjih responsa (content-type). Upostevaj character encoding dokumenta pa ne bo nobenih problemov. To verjetno zna vsaka knjiznjica, ki se ukvarja s tem.

HotBurek :: 18. sep 2022, 21:17

Python mi trenutno vrača tole:

In če odstranim znake, ki niso črka ali številko, potem dobim output1, rad pa bi output2.

output1=â twilight princess volume â 6â â
output2=twilight princess volume 6

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

hbgqzR :: 18. sep 2022, 21:18

preverjaj, da je koda med 32 in 127 :-)

kuall :: 18. sep 2022, 21:23

ukradi kodo iz tu, je pa js.
https://mothereff.in/utf-8

HotBurek :: 18. sep 2022, 21:25

HTML: meta http-equiv="Content-Type" content="text/html; charset=utf-8"

HTTP: Content-Encoding: br

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

kuall :: 18. sep 2022, 21:26

tisto so narekovaji: https://stackoverflow.com/questions/455...

HotBurek :: 18. sep 2022, 21:26

preverjaj, da je koda med 32 in 127 :-)

To je ascii only, rajt?

Ker pol â ni več črka, čeprav je.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

hbgqzR :: 18. sep 2022, 21:29

output1=â twilight princess volume â 6â â
output2=twilight princess volume 6

na osnovi output2, ja...
kaj ze sploh ti dejansko pocnes s tem?
scrapas v bazo ali imas live pretvorbo ali kaj?
zdaj bi bilo res fajn, da bi razumeli, kaj dogajas s tem :-)

HotBurek :: 18. sep 2022, 21:35

Ja, to ni moja stra. :)

Python pobere HTML dokument in izlušči podatke. Eden od teh je ime (name).

In trenutno Python za zgornji primer (link: link) ta name izpiše kot:

In če iz tega stringa odstraniš vse, kar ni črka ali številka, se prenese črka â, čeprav ta ni vidna (in je krneki, ne paše zraven).

Skratka, korak nazaj.

Kako pofixat Python, da bo iz izvornega HTML dokumenta odstranil šajse znakce, tako, da bo izpisal clean name (Twilight Princess, Volume 6), tako kot ga prikaže brskalnik.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (18. sep 2022 ob 21:38)

hbgqzR :: 18. sep 2022, 21:39

kot receno, ekstraktaj vsebino z regex iz tistih div-ov in odstrani vse znake, ki niso iz the ascii character set, vpisi preostanek, kamor planiras, in to je to, recimo:

var re =/[^A-Za-z0-9 ]/g;
var t = "â twilight princess volume â 6â â";
console.log(t.replace(re, ""));

Zgodovina sprememb…

spremenilo: hbgqzR (18. sep 2022 ob 21:44)

bluefish :: 18. sep 2022, 22:02

Zakaj ne uporabiš scraperja ala beautifulsoup, selenium,...?

Zgodovina sprememb…

spremenil: bluefish (18. sep 2022 ob 22:02)

win64 :: 18. sep 2022, 22:16

hbgqzR je 18. sep 2022 ob 21:39 izjavil:

kot receno, ekstraktaj vsebino z regex iz tistih div-ov in odstrani vse znake, ki niso iz the ascii character set, vpisi preostanek, kamor planiras, in to je to, recimo:
var re =/[^A-Za-z0-9 ]/g;
 var t = "â twilight princess volume â 6â â";
 console.log(t.replace(re, ""));

kot rečeno že zgoraj, to odstrani vse ne ascii znake, vključno z šumniki, umlauti..

Boljša rešitev je uporabiti unicode normalizacijo. Če želiš odstranjevati posamezne znake je pa pri delu z unicode najbolj natančno, če v zanki preverjaš kategorijo znaka.
Za python ti žal ne znam podati točnih imen metod.

https://www.unicode.org/reports/tr15/
https://www.compart.com/en/unicode/cate...

HotBurek :: 18. sep 2022, 22:34

bs4 ne reši problema, ker izpiše:

[' â\x80\x8eTwilight Princess, Volume â\x80\x8e6â\x80\x8eâ\x80\x8e ']

In iz tega stringa je treba ven dobit vidni string: Twilight Princess, Volume 6

Kar je pa isti problem, kot zgoraj.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (18. sep 2022 ob 22:35)

HotBurek :: 18. sep 2022, 22:57

Evo, zadevo sem pofixal. Napaka, ali pa nepravilna uporabe funkcije, je bila v sklopu requests modula.

Prej: response.text
Potem: response.content

# make request and get response
response = requests.get(url=url, headers=headers, allow_redirects=True, verify=False, timeout=20);

# put response into beautiful soup
soup = bs4.BeautifulSoup(response.content, features="lxml");

Spremeniš 7 črk, pa začne magično delat. Ful kul, dbest žur. 8-)

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

mr_chai :: 18. sep 2022, 23:02

HotBurek, lepo da si našel rešitev in naj ti povem eno modrost, ki bi jo moral poznati prav vsak programer, ampak na žalost vidim, da je veliko takih, ki tega ne ve:

String je pol kurca vredn, če ne veš kakšen je njegov encoding!

Razumeš to sedaj v čem je štos ? :)

edit: HotBurek nujno preberi tole https://www.joelonsoftware.com/2003/10/... , čene pridem pa ti dam eno plesko po licu!! obvezno branje

Zgodovina sprememb…

spremenilo: mr_chai (18. sep 2022 ob 23:11)

HotBurek :: 18. sep 2022, 23:23

Well, dokumentacija za requests med drugim pravi:

The encoding of the response content is determined based solely on HTTP headers...

Če za omenjeni primer poženem response.encoding, dobim: ISO-8859-1

In če dam ta encoding notri na trdo:

# put response into beautiful soup
soup = bs4.BeautifulSoup(response.content.decode("ISO-8859-1"), features="lxml");

Dobim nazaj tiste šajse znake, s katerim sem imel problem. Če pa dam namesto ISO-8859-1, notri UTF-8 (ali pustim prazno), pa lepo dela.

Skratka web server v header-ju vrača napačen encoding (oz. ga sploh ne), ali pa ga requests modul napačno interpretira.

HTTP vrača zgolj: Content-Type text/html

Fali mu charset.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (18. sep 2022 ob 23:29)

hbgqzR :: 19. sep 2022, 06:36

win64 je 18. sep 2022 ob 22:16 izjavil:

Ja, to je bila namen, glede na to, kako je bilo vprašanje zastavljeno in kakšni primeri so bili dani.

Zgodovina sprememb…

spremenilo: hbgqzR (19. sep 2022 ob 06:38)

Utk :: 19. sep 2022, 07:15

HotBurek je 18. sep 2022 ob 23:23 izjavil:

Well, dokumentacija za requests med drugim pravi:

The encoding of the response content is determined based solely on HTTP headers...

Če za omenjeni primer poženem response.encoding, dobim: ISO-8859-1

In če dam ta encoding notri na trdo:
# put response into beautiful soup
 soup = bs4.BeautifulSoup(response.content.decode("ISO-8859-1"), features="lxml");
Dobim nazaj tiste šajse znake, s katerim sem imel problem. Če pa dam namesto ISO-8859-1, notri UTF-8 (ali pustim prazno), pa lepo dela.

Skratka web server v header-ju vrača napačen encoding (oz. ga sploh ne), ali pa ga requests modul napačno interpretira.

HTTP vrača zgolj: Content-Type text/html

Fali mu charset.

Request že naredi prav, samo stran ima v headerju nekaj, v resnici pa nekaj drugega. Tega kot client ne moreš preprečit.

HotBurek :: 19. sep 2022, 09:17

Sedajle sem dve ure programiral rešitev na roko.

Plan je bil sledeč:
- prvo se prebere encoding/charset iz HTTP response-a
- če ga tam ni, gre v HTML meta charset
- če ga tam ni, gre v HTML meta http-equiv
- če ga tam ni, naredi guess

No, sedajle sem našel bolj elegantno rešitev z uporabo apparent_encoding.

Sample:

# init use this charset
use_this_charset = "utf-8";

# set use this charset
if response.apparent_encoding == None:

    # encoding from HTTP response
    use_this_charset = response.encoding.lower();

else:

    # encoding from guessing via chardet
    use_this_charset = response.apparent_encoding.lower();

# put response into beautiful soup
soup = bs4.BeautifulSoup(response.content.decode(use_this_charset), features="lxml");

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (19. sep 2022 ob 09:27)

win64 :: 19. sep 2022, 11:52

Pa saj ni problem v encodanju.
Bajti "20 E2 80 8E 54 77 69 6C 69 67 68 74 20 50 72 69 6E 63 65 73 73 2C 20 56 6F 6C 75 6D 65 20 E2 80 8E 36 E2 80 8E E2 80 8E 20" so utf8 tekst.
Zdaj kako jih python prikaže v konzoli ali brskalnik na strani/developer konzoli pa je odvisno od aplikacije. Mogoče ti tudi fonti manjkajo, mogoče konzola ne podpira vseh utf8 znakov...

win64 :: 19. sep 2022, 12:31

win64 je 19. sep 2022 ob 11:52 izjavil:

Pa saj ni problem v encodanju.
Bajti "20 E2 80 8E 54 77 69 6C 69 67 68 74 20 50 72 69 6E 63 65 73 73 2C 20 56 6F 6C 75 6D 65 20 E2 80 8E 36 E2 80 8E E2 80 8E 20" so utf8 tekst.
Zdaj kako jih python prikaže v konzoli ali brskalnik na strani/developer konzoli pa je odvisno od aplikacije. Mogoče ti tudi fonti manjkajo, mogoče konzola ne podpira vseh utf8 znakov...

Če je problem prikaz, pa primer čiščenje niza s pomočjo normalizacije : Š -> S, ä -> a,...
https://wtools.io/paste-code/bFe4

HotBurek :: 19. sep 2022, 14:16

Problem je, ker se modul requests zanaša samo na HTTP content-type charset. Če v HTTP header tega ni, naredi fall back na iso-8859-1. Se pravi, ignorira HTML HEAD META informacije.

Končna rešitev:

# set content_type
content_type = response.headers.get("Content-Type", "");

# set use_this_charset
use_this_charset = response.encoding.lower();

# check if use_this_charset is iso-8859-1
if use_this_charset == "iso-8859-1":

    # check if iso-8859-1 is found in http header
    # if not found we know it was fall back
    # so we should try with chardet
    if content_type.lower().find("iso-8859-1") == -1:

        use_this_charset = response.apparent_encoding;

Info: https://github.com/psf/requests/issues/...

The RFC is very clear: if you don't specify a charset, and the MIME type is text/*, the encoding must be assumed to be ISO-8859-1.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (19. sep 2022 ob 14:25)

Spura :: 19. sep 2022, 23:42

Se mi je zdelo da bo kaj takega. Http kniznjica pac razume le http headerje. Za HTML ne ve da obstaja. Bo pac treba malo na roke preverit kaj v html pise.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Kako narediti request z "\" v URL-ju HotBurek Oddelek: Programiranje	17	2647 (1922)	Horejšio 13. okt 2017 23:47:56
»	Denuvo FiReFTW Oddelek: Igre	43	6972 (6044)	LeQuack 14. jul 2016 11:31:25
»	[PHP] charter set windows-1250 Blisk Oddelek: Programiranje	28	3197 (3197)	Blisk 9. dec 2007 17:23:11
»	Zanimiv server LOG Tr0n Oddelek: Omrežja in internet	14	2313 (1881)	TheHijacker 3. jan 2003 15:50:35
»	L0S REzuLTAT0S TU !!! Vsi ki va moja majhna raziskava zanima kojci vržite uč na to ru (strani: 1 2 ) Caboose Oddelek: Hlajenje in modifikacije	71	6320 (5382)	texhex 26. jan 2001 12:46:06

Več podobnih tem

Forum » Programiranje » [Python] Kako dekodirat sledeč string?

[Python] Kako dekodirat sledeč string?