[Java] Prevajanje in šumniki v ubuntu @ Slo-Tech

Forum » Programiranje »
[Java] Prevajanje in šumniki v ubuntu

[Java] Prevajanje in šumniki v ubuntu

mmaestro :: 3. dec 2013, 18:11

Spisan imam program, ki mi iz maila ob določenih dogodkih pošilja sms sporočila.

V metodi checkMail ven sparsam določeno vsebino za nekatera sporočila, ki pridejo iz maila v UTF obliki jih pretvorim v Windows-1252 da dobim šumnike nazaj.
V glavnem problem se pojavi, ker če to kodo laufam na exlipse dela ok, tako kot more.
Potem jo dam na server ubuntu in kot prvo sem naletel na težavo, da nisem mogel prevesti java faila ker mi je javljalo
error: unmappable character for encoding UTF-8.

Zaradi tega sem javac MojProgram.java zamenjal z ukazom javac -encoding ISO-8859-1 MojProgram.java. Program se normalno prevede in ko ga zaženem imam problem, da mi noče konvertirati šumnikov nazaj v nešumnike.

Ima kdo kako idejo?


	private static Charset CHARSET_WINDOWS1252 = Charset.forName("Windows-1252");
	private static Charset CHARSET_ISO88591 = Charset.forName("ISO-8859-1");
	private static Charset CHARSET_UTF8 = Charset.forName("UTF-8");

	byte[] bytes = mailBody.getBytes(CHARSET_WINDOWS1252);
	mailBody = new String(bytes, CHARSET_UTF8);

private static void readGmail()
	{
		 String mailFrom = "";
	     String mailBody = "";
	     String mailSubject = "";
	     Date mailRecieved = new Date();
	
	     try {
	    	 
	    	Properties props = System.getProperties();
		    props.setProperty("mail.store.protocol", "imaps");
	    	 
			Session session = Session.getDefaultInstance(props, null);
			Store store = session.getStore("imaps");
			store.connect("imap.gmail.com", GMAIL_USERNAME, GMAIL_PASSWORD);
	
			Folder inbox = store.getFolder("Inbox");
			inbox.open(Folder.READ_ONLY);
			Message messages[] = inbox.getMessages();

			int i = 1;
			for(Message message:messages) {
				
				mailFrom = message.getFrom()[0].toString();
				mailRecieved = message.getReceivedDate();
				mailSubject = message.getSubject();
							
				printProgBar(i * 100 / messages.length);
				i++;
				
				// Read just mails within last 24 hours
				if (mailRecieved.after(new Date(System.currentTimeMillis()-86400*1000))) {
					
					Object content = message.getContent(); 

				    if (content instanceof String)  
				    {  
				    	mailBody = (String)content;  
					}  
					else if (content instanceof Multipart)  
					{  
					    Multipart mp = (Multipart)content;  
					    mailBody = mp.toString();
					    
					    if (mailBody.contains("javax.mail.internet.MimeMultipart"))
					    {
					    	String body = "";
						    for(int j=0; j<mp.getCount(); j++) {
						    	   MimeBodyPart part = (MimeBodyPart) mp.getBodyPart(j);
						    	   body += part.getContent().toString();
						    	}
						    mailBody = body;
					    }					   
				    }  


					checkMail(mailFrom, mailSubject, mailBody, mailRecieved);
					
				}
	
			}
			
			store.close();
			
		} catch (Exception e) {
            //e.printStackTrace();
		}
	
	}

	    private static String removeSpecialCharacters(String text)
	    {
	    	text = text.replace("Č", "C");
	    	text = text.replace("č", "c");
	    	text = text.replace("Ž", "Z");
	    	text = text.replace("ž", "z");
	    	text = text.replace("Š", "S");
	    	text = text.replace("š", "s");
	    	text = text.replace("Ć", "C");
	    	text = text.replace("ć", "c");
	    	text = text.replace("Đ", "D");
	    	text = text.replace("đ", "d");
	    	
	    	text = text.replace("á", "a");
	    	text = text.replace("é", "e");
	    	text = text.replace("ě", "e");
	    	text = text.replace("í", "i");
	    	text = text.replace("ň", "n");
	    	text = text.replace("ó", "o");
	    	text = text.replace("ř", "r");
	    	text = text.replace("ú", "u");
	    	text = text.replace("ů", "u");
	    	text = text.replace("ý", "y");
	    	
	    	text = text.replace("Á", "A");
	    	text = text.replace("Ď", "D");
	    	text = text.replace("É", "E");
	    	text = text.replace("Ě", "E");
	    	text = text.replace("Í", "I");
	    	text = text.replace("Ň", "N");
	    	text = text.replace("Ó", "O");
	    	text = text.replace("Ř", "R");
	    	text = text.replace("Ť", "T");
	    	text = text.replace("Ú", "U");
	    	text = text.replace("Ů", "U");
	    	text = text.replace("Ý", "Y");
	    	
	    	return text.trim();
	    }

spremenil: mmaestro (3. dec 2013 ob 18:35)

mmaestro :: 4. dec 2013, 18:25

Do sedaj sem uspel ugotoviti delno rešitev.

Nastavil sem jezik na ubuntuju na slovensko. S sledečimi ukazi.
locale-gen sl_SI
update-locale LANG=sl_SI.ISO-8859-2

Ponovno zagnal strežnik, rebildal java file in zadeva je sledeča.
Pretvori mi sledeče šumnike.
č,ć,đ medtem ko ž,š ne pretvori v z,s.

Komu kaj jasno zakaj se to zgodi?

Prav tako uspešno pretvarja češke znake, samo ž in š ne.

Math Freak :: 4. dec 2013, 19:48

Kaj je prav, Windows-1252 ali 1250?

Math Freak :: 4. dec 2013, 20:08

Windows-1252 @ Wikipedia

Š in Ž spadata ravno v Windows-1252, medtem ko ostale ne, lahko da je kaka povezava?

(Samo ugibam)

mmaestro :: 4. dec 2013, 20:33

Ne vem.
Tudi tisto kar ne gre čez encoding se mi ne pretvarja, tako da načeloma to nebi smel biti vzrok to.

Math Freak :: 4. dec 2013, 20:52

Nisem nikoli delal s temi stvarmi, tako da mal ugibam ...

byte[] bytes = mailBody.getBytes(CHARSET_WINDOWS1252);

kaj ti ta del nardi?

mmaestro :: 4. dec 2013, 21:03

Če ti iskreno povem ne vem točno :)
To sem poguglal in prišel do tega, nisem pa se datajlno spuščal v podbornosti. Delalo je to pa je bilo v bistvu vse kar me je zanimalo :)

Ta dva koščka sestavljata mozaik in sicer namesto da bi v string dobil ? dobim ž kakor bi tudi moglo bit.
byte[] bytes = mailBody.getBytes(CHARSET_WINDOWS1252);
mailBody = new String(bytes, CHARSET_UTF8);

Math Freak :: 4. dec 2013, 21:10

Probi sam za foro spremenit pri

private static Charset CHARSET_WINDOWS1252 = Charset.forName("Windows-1252");

tist k je v oklepaju na "Windows-1250" in povej, če je kaka sprememba =P.

Spura :: 5. dec 2013, 00:28

A ti nalasc uporabljas ceski encoding? Also:
> 2013
> using windows-1250

Math Freak :: 5. dec 2013, 01:26

Malo se se poigral s tem, samo mi nič ne pretvarja ... verjetno kaj narobe delam lol.

String line3 = in.readLine();
    byte[] bytes1 = line3.getBytes(CHARSET_WINDOWS1252);
    System.out.print("Datoteka kodirana v utf8: AbCčČćĆšŠžŽ\n");
    System.out.print("a.)Windows 1252 -> Windows 1252: " + new String(bytes1,CHARSET_WINDOWS1252) + "\n");
    byte[] bytes2 = line3.getBytes(CHARSET_WINDOWS1252);
    System.out.print("b.)Windows 1252 -> UTF8: " + new String(bytes2,CHARSET_UTF8)+ "\n");
    byte[] bytes3 = line3.getBytes(CHARSET_UTF8);
    System.out.print("c.)UTF8 -> UTF8: " + new String(bytes3,CHARSET_UTF8)+ "\n");
    byte[] bytes4 = line3.getBytes(CHARSET_WINDOWS1250);
    System.out.print("d.)Windows 1250 -> UTF8: " + new String(bytes4,CHARSET_UTF8)+ "\n");
    byte[] bytes5 = line3.getBytes(CHARSET_WINDOWS1250);
    System.out.print("e.)Windows 1250 -> Windows 1250: " + new String(bytes5,CHARSET_WINDOWS1250)+ "\n");}}

Rezultat:

run:
Datoteka kodirana v utf8: AbCčČćĆšŠžŽ
a.)Windows 1252 -> Windows 1252: ?AbC????šŠžŽ
b.)Windows 1252 -> UTF8: ?AbC????????
c.)UTF8 -> UTF8: AbCčČćĆšŠžŽ
d.)Windows 1250 -> UTF8: ?AbC???????
e.)Windows 1250 -> Windows 1250: ?AbCčČćĆšŠžŽ
BUILD SUCCESSFUL (total time: 0 seconds)

Sklepam, da ti š,Š,ž,Ž ne pretvori, ker jih prepozna kot normalni črki?

mmaestro :: 5. dec 2013, 18:23

Sem sprobal zdaj na ta način.
Malo sem spremenil kodo oz dodal par printlinov in sicer zgleda koda tako.

private static String removeSpecialCharacters(String text)
	    {
	    	System.out.println("Received char: " + text);
	    	System.out.println("Received char ASCII: " + (int)text.charAt(0));
	    	
	    	System.out.println("char Š");
	    	System.out.println("Š char ASCII: " + (int)"Š".charAt(0));
	    	
	    	System.out.println("char Ž");
	    	System.out.println("Ž char ASCII: " + (int)"Ž".charAt(0));
	    	
	    	System.out.println("char š");
	    	System.out.println("š char ASCII: " + (int)"š".charAt(0));
	    	
	    	System.out.println("char ž");
	    	System.out.println("ž char ASCII: " + (int)"ž".charAt(0));
	    	
	    	text = text.replace("Č", "C");
	    	text = text.replace("č", "c");
	    	text = text.replace("Ž", "Z");
	    	text = text.replace("ž", "z");
	    	text = text.replace("Š", "S");
	    	text = text.replace("š", "s");
	    	text = text.replace("Ć", "C");
	    	text = text.replace("ć", "c");
	    	text = text.replace("Đ", "D");
	    	text = text.replace("đ", "d");
	    	
	    	text = text.replace("á", "a");
	    	text = text.replace("é", "e");
	    	text = text.replace("ě", "e");
	    	text = text.replace("í", "i");
	    	text = text.replace("ň", "n");
	    	text = text.replace("ó", "o");
	    	text = text.replace("ř", "r");
	    	text = text.replace("ú", "u");
	    	text = text.replace("ů", "u");
	    	text = text.replace("ý", "y");
	    	
	    	text = text.replace("Á", "A");
	    	text = text.replace("Ď", "D");
	    	text = text.replace("É", "E");
	    	text = text.replace("Ě", "E");
	    	text = text.replace("Í", "I");
	    	text = text.replace("Ň", "N");
	    	text = text.replace("Ó", "O");
	    	text = text.replace("Ř", "R");
	    	text = text.replace("Ť", "T");
	    	text = text.replace("Ú", "U");
	    	text = text.replace("Ů", "U");
	    	text = text.replace("Ý", "Y");
	    	
	    	System.out.println("Changed text: " + text);
	    	
	    	return text.trim();
	    }

Kot input iz maila sem prabral črko š in dobim to:

Received char: š
Received char ASCII: 353
char ?
? char ASCII: 138
char ?
? char ASCII: 142
char ?
? char ASCII: 154
char ?
? char ASCII: 158
Changed text: š

Se pravi ASCII od šja ki ga dobim noter in š-ja kateri je v kodi je čisto različen.
Zakaj pa niti približno se mie ne sanja.

mmaestro :: 5. dec 2013, 19:26

Evo mi je bilo dost jahanja s temi znaki. Nekatere konvertira nekatere ne, nič jasno, niti se mi več ne da s tem ukvarjat. Škoda da nisem prej na to pomislil :)

Sem naredil trotel ziher.

private static String removeSpecialCharacters(String text)
	    {
	    	text = text.replace("Č", "C");
	    	text = text.replace("č", "c");
	    	text = text.replace("Ž", "Z");
	    	text = text.replace("ž", "z");
	    	text = text.replace("Š", "S");
	    	text = text.replace("š", "s");
	    	text = text.replace("Ć", "C");
	    	text = text.replace("ć", "c");
	    	text = text.replace("Đ", "D");
	    	text = text.replace("đ", "d");
	    	
	    	//č,Č,ć,Ć,š,Š,ž,Ž,EUR
	    	text = text.replace((char)269, 'c');
	    	text = text.replace((char)268, 'C');
	    	text = text.replace((char)263, 'c');
	    	text = text.replace((char)262, 'C');
	    	text = text.replace((char)382, 'z');
	    	text = text.replace((char)381, 'Z');
	    	text = text.replace((char)353, 's');
	    	text = text.replace((char)352, 'S');
	    	text = text.replace((char)373, 'd');
	    	text = text.replace((char)272, 'D');
	    	text = text.replace((char)128, (char)8364); //euro

	    	text = text.replace("á", "a");
	    	text = text.replace("é", "e");
	    	text = text.replace("ě", "e");
	    	text = text.replace("í", "i");
	    	text = text.replace("ň", "n");
	    	text = text.replace("ó", "o");
	    	text = text.replace("ř", "r");
	    	text = text.replace("ú", "u");
	    	text = text.replace("ů", "u");
	    	text = text.replace("ý", "y");
	    	
	    	text = text.replace("Á", "A");
	    	text = text.replace("Ď", "D");
	    	text = text.replace("É", "E");
	    	text = text.replace("Ě", "E");
	    	text = text.replace("Í", "I");
	    	text = text.replace("Ň", "N");
	    	text = text.replace("Ó", "O");
	    	text = text.replace("Ř", "R");
	    	text = text.replace("Ť", "T");
	    	text = text.replace("Ú", "U");
	    	text = text.replace("Ů", "U");
	    	text = text.replace("Ý", "Y");
	    	
	    	//ě,Ě,ň,Ň,ř,Ř,ů,Ů,Ď,Ť
	    	text = text.replace((char)283, 'e');
	    	text = text.replace((char)282, 'E');
	    	text = text.replace((char)328, 'n');
	    	text = text.replace((char)327, 'N');
	    	text = text.replace((char)345, 'r');
	    	text = text.replace((char)344, 'R');
	    	text = text.replace((char)367, 'r');
	    	text = text.replace((char)366, 'R');
	    	text = text.replace((char)270, 'D');
	    	text = text.replace((char)356, 'T');
	    	
	    	return text.trim();
	    }

Zgodovina sprememb…

spremenil: mmaestro (5. dec 2013 ob 19:27)

Senitel :: 5. dec 2013, 19:31

BTW: A kakšnih for zank vas še niso naučili?

Math Freak :: 5. dec 2013, 20:13

@Senitel

Lol, njega očitno zanimajo šumniki, dobi pa nasvete za vse ostalo ...

Izgleda je zmešnjava po katerem načinu program / mail kodira znake. S "System.out.println(System.getProperty("file.encoding"));" lahko pogledaš za konec, če ti kodira na enak način v ubuntu in exlipse. Važn da je problem rešn =p.

mmaestro :: 5. dec 2013, 21:15

Ma dobro imaš prav no :) ni ravno najlepše. Je sproti nastajalo in pol nisem dajal v array vseh znakov, čeprav bi bilo dosti lepše :)
Bom naredil tako :)
Važno da zdaj dela tako kot sem že prej mislil da bo.

Spura :: 6. dec 2013, 14:31

Zelo simpl je. Mail ki ga prejmes ima podan encoding, uporabis ta encoding. Ne vem kaj pol pocnes s to stvarjo, ampak encoding podatkov maila je trivialna stvar. Pol mas neko funkcijo k sumnike odstranjuje, k ne razumem zakaj jo rabis. Ampak v osnovi je problem s to funkcijo to, da imas notr string literale s sumniki in naekrat postane encoding source kode problem. To si se sam nafukal, ker tlacis sumnike v source in pol dajes ta source na drug sistem.

                        Multipart mp = (Multipart)content;  
                        mailBody = mp.toString();
                         
                        if (mailBody.contains("javax.mail.internet.MimeMultipart"))

What the fuck je to zakaj ne uporabis preprosto instanceof operatorja?

MrStein :: 7. dec 2013, 15:30

1.) Encoding Java source fajlov
Kakšen je?
Kakšnen encoding uporablja prevajalnik javac (ali katerega si pač uporabil)?

2.) Zagon programa.
A java JRE uporablja encoding, ki je enak tistemu, ki ga uporablja OS? (oziroma terminal, preostali OS nima veze, tisti reboot je bil popolnoma nepotreben

)

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

Zgodovina sprememb…

spremenil: MrStein (7. dec 2013 ob 15:31)

MrStein :: 7. dec 2013, 15:47

Probaj tole prevest (je "suhi" ASCII, tako da je v tem koraku encoding vseeno) in pognat:

// shrani kot Test1.java
public class Test1 {
public static void main(String[] args) {
    System.out.println("\u010c\u010d\u0160\u0161\u017d\u017e");
  }
}

Moralo bi izpisati "ČčŠšŽž".

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

MrStein :: 7. dec 2013, 15:53

mmaestro je 3. dec 2013 ob 18:11 izjavil:

javac -encoding ISO-8859-1 MojProgram.java.

To sigurno ni prav, ker ISO-8859-1 ne pozna šumnikov, ti pa jih imaš v programu (v source kodi).

Sicer pa:
- Java ima že knjižnice, kjer pretvori č-je v c-je. Mogoče:
String mailBody;
bytes [] brez_sumnikov = mailBody.getBytes(Charset.forName("US-ASCII"));

- večina SMS storitev že sama odstrani/pretvori nepodprte znake in ne rabiš ti to delat

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

Zgodovina sprememb…

spremenil: MrStein (7. dec 2013 ob 15:58)

MrStein :: 7. dec 2013, 16:01

update-locale LANG=sl_SI.ISO-8859-2

Ajoj...
Daj to nazaj kot je bilo.
Ubuntu po defoltu uporablja UTF-8 ("vsi znaki, ki jih je človeštvo kdajkoli uporabljajo in poznalo").

Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

mmaestro :: 7. dec 2013, 16:14

MrStein je 7. dec 2013 ob 16:01 izjavil:

update-locale LANG=sl_SI.ISO-8859-2

Ajoj...
Daj to nazaj kot je bilo.
Ubuntu po defoltu uporablja UTF-8 ("vsi znaki, ki jih je človeštvo kdajkoli uporabljajo in poznalo").

To sem dal nazaj že ja, ker so se je recimo v mc programu pojavljali kar neki čudni znaki.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	[php] encoding niza kriko1 Oddelek: Izdelava spletišč	17	4430 (2345)	BivšiUser2 1. jan 2018 13:42:01
»	[Java]: replace - slovar v txt prem Oddelek: Programiranje	12	2061 (1919)	Spura 23. nov 2011 15:13:46
»	Koda kalkulatorja v MS visual C# 2008? cyborg077 Oddelek: Programiranje	21	3418 (2755)	smukC 26. maj 2010 18:40:21
»	C# - keypress urkrajnc Oddelek: Programiranje	20	1940 (1671)	urkrajnc 15. maj 2009 17:11:45
»	[java] Kako v memoriji pretvoriti String objekt v File objekt ? - neka metoda ga zaht Fizikalko Oddelek: Programiranje	13	2654 (2654)	infiniteLoop 23. okt 2007 20:41:21

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
[Java] Prevajanje in šumniki v ubuntu

[Java] Prevajanje in šumniki v ubuntu