[JAVA] parsanje XML v UTF-8 @ Slo-Tech

Forum » Programiranje »
[JAVA] parsanje XML v UTF-8

[JAVA] parsanje XML v UTF-8

DuleKrtola :: 7. avg 2013, 10:18

Parsam neke xml fajle, ki jih dobivam z nekega strežnika. Text je v UTF-8 in tu pa tam se pojavi kakšen ruski znak, ki ga ne znam sparseat.
Npr tale:
ŕ (UTF 0x155)
Če bi bil v XMLju zapisan tako, kot je zgoraj, problemov ne bi bilo. Je pa dejansko zapisan kot r´, torej z dvema znakoma. S tema dvema znakoma namreč dobiš ŕ na tikovnici - pritisneš r in altgr+7 (vsaj na slo tipkovnici).

1. Je to sploh pravilno? Če XML na vrhu pravi, da uporablja UTF-8, mar ne bi moral zapisat znak z pripadajočo UTF kodo, ne pa z nekim zapordjem, ki je dejansko ambiguous?

2. Je v JAVI kakšen trik, da poloviš te znake? Ne vem niti, kako bi tole pogooglal.

Uporabljam pa JSoup parser:

responsePost = client.execute(post);
HttpEntity resEntity = responsePost.getEntity();  
String response= EntityUtils.toString(resEntity,"UTF-8");
// tukaj bi polovil še te znake
Document doc=Jsoup.parse(response, "", Parser.xmlParser());

Spura :: 7. avg 2013, 10:56

Kaj pa ce namesto JSoup uporabis navaden DOM parser? Na splosno lahko v unicode characterji ostajajo v vecih oblikah, zato je vcasih potrebna normalizacija:

https://weblogs.java.net/blog/joconner/...

Zgodovina sprememb…

spremenil: Spura (7. avg 2013 ob 10:59)

DuleKrtola :: 7. avg 2013, 11:08

Kaj pa ce namesto JSoup uporabis navaden DOM parser?

Ni šans, preveč dela. Poleg tega je parser že v redu.

V linku ki si ga podal je tisti znak escapean, normalizacija tega ni problem. Pri mojih XMLjih je težava, da nekateri znaki niso zapisani v UTF-8, niti escepani, ampak so zapisani kot "sekvenca tipk", ki naredi ta znak.

DuleKrtola :: 7. avg 2013, 11:37

Normalizer did the trick:
http://docs.oracle.com/javase/tutorial/...
Sicer se mi zdi, da se je vrinil nek presledek po normalizaciji. Doh :/

DuleKrtola :: 7. avg 2013, 11:48

To je problematičen text:
Valer´evič

Normalizacija po NFC ne naredi nič, NFKC pa zamenja znak, vendar vrne še en presledek. Kakšna ideja?

win64 :: 7. avg 2013, 11:52

Kaj pa html encode vrednosti?
Mimogrede, to bi moralo narediti samo.

DuleKrtola :: 7. avg 2013, 23:41

Spura, imaš kakšno idejo od kje pride tisti presledek pri NFKC? In zakaj NFC pravi, da je normalized, čeprav ni?

Spura :: 8. avg 2013, 08:40

NFC zdruzuje samo canonical equivalents, NFKC pa tudi compatibility equivalents.

http://www.unicode.org/reports/tr15/tr1...

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Davčne blagajne (strani: 1 2 3 4 … 24 25 26 27 ) PrimozHisof Oddelek: Programiranje	1344	378691 (118694)	Macketina 3. maj 2021 03:25:34
»	[JAVA] HTTPS client Fizikalko Oddelek: Programiranje	17	3579 (2309)	peterv6i 19. nov 2015 07:57:50
»	MSSQL UTF-8 in šumniki biasko Oddelek: Programiranje	12	2514 (2265)	biasko 18. dec 2012 17:13:18
⊘	python pomoč studentka Oddelek: Programiranje	39	3857 (2778)	Mavrik 9. dec 2011 12:46:20
»	Avtomatično prepoznati POST spremenljivke JanVid86 Oddelek: Programiranje	12	1860 (1653)	AnonimkeOP 25. jun 2009 14:49:38

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
[JAVA] parsanje XML v UTF-8

[JAVA] parsanje XML v UTF-8