Unicode decode @ Slo-Tech

Forum » Programiranje »
Unicode decode

Unicode decode

poweroff :: 3. sep 2015, 14:47

V PSQL bazi imam seznam vseh zakonov oz. predpisov sprejetih v Sloveniji (19712 zapisov). Te podatke bi rad izvozil v tabelo v obliki:
naslov_zakona presledek besedilo_zakona

To naredim nekako takole:

\COPY (select replace(naslov_zakona, ' ', '_'), regexp_replace(vsebina_zakona, E'[\\n\\r\\u2028]+', ' ', 'g' ) from zakonodaja_zakoni, zakonodaja_besedila where (zakonodaja_zakoni.sop = zakonodaja_besedila.sop) and (id ~* 'zak')) to 'besedila_zakonov_ontogen.txt' with csv header delimiter ' ' encoding 'WIN1250';

- naslov_zakona spremenim tako, da so namesto presledkov podčrtaji;
- sledi presledek, nato pa iz vsebina_zakona odstranim vse newline in UTF-8 znak u2028;
- zadevo zapišem v TXT datoteko besedila_zakonov_ontogen.txt v CP-1250 kodnem zapisu.

Problem, dobim tale error:

ERROR:  character with byte sequence 0xe2 0x80 0x91 in encoding "UTF8" has no equivalent in encoding "WIN1250"

No, zadevo sem potem zapisal v navadno TXT datoteko v UTF-8 formatu in le-to skušal pretvoriti iz UTF-8 v nek normalen format. Uporabil sem Unidecode.

Zadevo v bashu poženem takole:

unidecode besedila_zakonov_ontogen.txt > besedila_zakonov_ontogen_win.txt

Ven pade prazna datoteka (besedila_zakonov_ontogen_win.txt), v ukazni vrstici pa se izpiše tole:

Pobit

Any idea kaj je narobe?

sudo poweroff

poweroff :: 3. sep 2015, 14:57

Recode tudi ne dela. Če rečem:

recode UTF8..CP1250 besedila_zakonov_ontogen.txt

Dobim:

recode: besedila_zakonov_ontogen.txt neuspešno: Neveljaven vhod v koraku ,UTF-8..CP1250`

Issto je iconv:

iconv -f utf-8 -t cp1250 besedila_zakonov_ontogen.txt > besedila_zakonov_ontogen_win.txt

iconv: illegal input sequence at position 1263633

sudo poweroff

Zgodovina sprememb…

spremenilo: poweroff (3. sep 2015 ob 14:58)

Randomness :: 3. sep 2015, 16:40

Nič ne delaš narobe. V datoteki besedila_zakonov_ontogen.txt imaš očitno znak, ki ga ni mogoče predstaviti v cp1250. Ta znak je '-', ki v kakšni pisavi mogoče na pogled zgleda enako kot znak '-', a gre za popolnoma drug "unicode code point".

P.S. Zakaj ne obdržiš datoteke kar v utf-8, ki je v današnjem času kar se mene tiče edini smiseln txt format?

Zgodovina sprememb…

spremenilo: Randomness (3. sep 2015 ob 16:49)

poweroff :: 3. sep 2015, 17:18

Zato, ker bi za nadaljnjo analizo želel uporabiti nek Wintendo-only software, ki ne podpira UTF-8...

Kako pa ta "-" odstranim ročno s PSQL?

sudo poweroff

Randomness :: 3. sep 2015, 17:33

sed 's/\xe2\x80\x91/-/g' besedila_zakonov_ontogen.txt | iconv -f utf-8 -t cp1250 > besedila_zakonov_ontogen_win.txt

Spura :: 4. sep 2015, 14:02

Ponavadi lahko ce zelis nadomestis znake, ki se jih ne da predstavit z nekim drugim znakom. Vsaj v Javi je tako. Sicer je pa taka stvar par vstic v javi.

avian2 :: 5. sep 2015, 11:56

Matthai, kar se tiče Unidecode se mi zdi, da narobe razumeš njegov namen. Unidecode nadomesti vse znake, ki jih ni mogoče predstaviti v 7-bitnem ASCII naboru. Pri tem uporabi znake, ki so jim najbolj podobni. V praksi to pomeni, da bo pri slovenskem besedilu č, ž, š zamenjal za c, z, s. Namen Unidecode ni pretvarjanje med kodnimi nabori temveč na primer izdelava kakih identifikatorjev, ki ne podpirajo polnega Unicode nabora znakov.

Mimogrede, izpis "Pobit" in prazno datoteko dobiš zato, ker je vhodna datoteka prevelika, da bi se v celoti shranila v pomnilnik. "unidecode" orodje za ukazno vrstico namreč pred obdelavo prebere celo datoteko (Python knjižnica, ki jo uporablja, sicer nima te omejitve).

Za tvoj problem bi ti predlagal "iconv" z "//translit" opcijo. Tako ti bo "iconv" avtomatsko nadomestil tisti nerodni pomišljaj (in ostale take primere) s takim, ki je v "cp1250" naboru.

iconv -f utf-8 -t cp1250//translit besedila_zakonov_ontogen.txt > besedila_zakonov_ontogen_win.txt

MrStein :: 5. sep 2015, 17:53

Zakaj pa ne bi ta znak nadomestil že v SQL, če si tam že poskrbel za UTF-8 znak u2028 ?
Recimo z minusom.

Sicer potem moraš enako narediti za vse nove morebitne "nerodne" zanke, ki bi se pojavili. Bi pa vsaj potem vedel, kaj je bilo in s čim si nadomestil.

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

poweroff :: 5. sep 2015, 18:39

Ja, saj to bi najraje. A obstaja kakšna funkcija oz. translacijska tabela?

sudo poweroff

MrStein :: 5. sep 2015, 18:55

Za kaj?
Da bi znake brez CP1250 kode spremenil v nek veljaven podoben znak?
Izbrisal?

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

Zgodovina sprememb…

spremenil: MrStein (5. sep 2015 ob 18:56)

poweroff :: 5. sep 2015, 22:21

Recimo. Eno ali drugo. Izbris je še najbolj enostaven. In v resnici mi ne dela večjih težav, ker text mining orodje analizira druge zadeve.

sudo poweroff

MrStein :: 6. sep 2015, 02:22

Tole za iconv?

  -c     When this option is given, characters that cannot be converted are silently discarded, instead of leading to a conversion error.

Ali pa tole:

iconv -f utf8 -t cp1250//IGNORE

Šumnike in vse drugo, kar ne gre v cp1250 izpusti iz outputa.
(oziroma šumniki bi naj ostali, v hitrem preizkusu pri meni nekaj zmešalo, ampak načeloma deluje)

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

Zgodovina sprememb…

spremenil: MrStein (6. sep 2015 ob 02:29)

Randomness :: 6. sep 2015, 09:35

Če želiš dotični znak nadomestiti s presledkom, ga samo dodaj v svoj regexp_replace:

regexp_replace(vsebina_zakona, E'[\\n\\r\\u2028\\u2011]+', ' ', 'g' )

Če ga želiš nadomestiti s kakim drugim znakom (npr. '-'), uporabi gnezden regexp_replace:

regexp_replace(regexp_replace(vsebina_zakona, E'[\\n\\r\\u2028]+', ' ', 'g'), E'[\\u2011], '-', 'g')

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	[php] encoding niza kriko1 Oddelek: Izdelava spletišč	17	4435 (2350)	BivšiUser2 1. jan 2018 13:42:01
»	[C++] charset-a matijaz74 Oddelek: Programiranje	7	1183 (1040)	SasoS 2. feb 2012 08:10:29
⊘	python pomoč studentka Oddelek: Programiranje	39	3854 (2775)	Mavrik 9. dec 2011 12:46:20
»	[PHP] charter set windows-1250 Blisk Oddelek: Programiranje	28	3201 (3201)	Blisk 9. dec 2007 17:23:11
»	MySQL in czs MrBrdo Oddelek: Izdelava spletišč	42	3907 (2997)	krho 25. apr 2006 09:02:16

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
Unicode decode

Unicode decode

Unicode decode

poweroff :: 3. sep 2015, 14:47

poweroff :: 3. sep 2015, 14:57

Randomness :: 3. sep 2015, 16:40

poweroff :: 3. sep 2015, 17:18

Randomness :: 3. sep 2015, 17:33

Spura :: 4. sep 2015, 14:02

avian2 :: 5. sep 2015, 11:56

MrStein :: 5. sep 2015, 17:53

poweroff :: 5. sep 2015, 18:39

MrStein :: 5. sep 2015, 18:55

poweroff :: 5. sep 2015, 22:21

MrStein :: 6. sep 2015, 02:22

Randomness :: 6. sep 2015, 09:35

Vredno ogleda ...

[php] encoding niza

[C++] charset-a

python pomoč

[PHP] charter set windows-1250

MySQL in czs

Forum » Programiranje » Unicode decode

Unicode decode

Unicode decode

poweroff :: 3. sep 2015, 14:47

poweroff :: 3. sep 2015, 14:57

Randomness :: 3. sep 2015, 16:40

poweroff :: 3. sep 2015, 17:18

Randomness :: 3. sep 2015, 17:33

Spura :: 4. sep 2015, 14:02

avian2 :: 5. sep 2015, 11:56

MrStein :: 5. sep 2015, 17:53

poweroff :: 5. sep 2015, 18:39

MrStein :: 5. sep 2015, 18:55

poweroff :: 5. sep 2015, 22:21

MrStein :: 6. sep 2015, 02:22

Randomness :: 6. sep 2015, 09:35

Vredno ogleda ...

Forum » Programiranje »
Unicode decode