aspx preberm HTML strani @ Slo-Tech

Forum » Programiranje »
aspx preberm HTML strani

aspx preberm HTML strani

Lualah :: 16. avg 2009, 12:57

Z Aspx parsam HTML stran, ampak problem je da je ena v utf-8 ena v iso-8859-1 ena pa v windows-1250 kodiranju. Ta ko je v utf-8 šumniki delajo, druge pa ne, namest šumnikov so ? in podobni znaki. Je možno narediti kako da bi šumniki delali tudi iz teh strani ki so v drugem kodiranju?

techfreak :) :: 16. avg 2009, 13:11

ASCIIEncoding ascii = new ASCIIEncoding(); 
UTF8Encoding utf8 = new UTF8Encoding(); 
byte[] asciiBytes = Encoding.Convert(utf8, ascii, utf8bytes);

Lualah :: 16. avg 2009, 13:36

hmm hvala DejanL15 kje to uporabim da bo delalo? Je pomembno?

techfreak :) :: 16. avg 2009, 13:49

To uporabiš takrat ko prebeš HTML stran. Kar pa ti ta funkcija vrne, pa potem uporabiš za parsanje.

Lualah :: 16. avg 2009, 14:02

imaš mogoče kak primer celotne kode kako to naredim, z googlom ne najdem celega primera

Senzacionale :: 16. avg 2009, 16:40

Poglej tole:
http://msdn.microsoft.com/en-us/library...

http://www.dostavahrane.si

Lualah :: 16. avg 2009, 20:06

hmm noče mi delovati

string htmlContent = GetHtmlContent(url);
htmlContent = HtmlHelper.ConverEncodings(htmlContent, Encoding.Unicode, Encoding.UTF8);
return new HtmlHelper().GetTagsAndValues(htmlContent);

public static string ConverEncodings(string content, Encoding currentEncoding, Encoding newEncoding)
        {
            // Convert the string into a byte[].
            byte[] bytes = currentEncoding.GetBytes(content);

            // Perform the conversion from one encoding to the other.
            byte[] newBytes = Encoding.Convert(currentEncoding, newEncoding, bytes);

            char[] newChars = new char[newEncoding.GetCharCount(newBytes, 0, newBytes.Length)];
            newEncoding.GetChars(newBytes, 0, newBytes.Length, newChars, 0);
            return new string(newChars);
        }

Vidi kdo napako?

techfreak :) :: 16. avg 2009, 21:58

A ni Unicode in UTF-8 isto?

Lualah :: 16. avg 2009, 22:55

tudi jaz mislim da je, isto je z ascii kaze ? namesto sumnika...

Uporabljam ncrawler mislim da on ze v osnovi pobere znak dol namesto sumnika, mogoce se motim...

arjan_t :: 16. avg 2009, 23:18

A ni Unicode in UTF-8 isto?

utf-8 je "implementacija" unicode-a

Lualah :: 16. avg 2009, 23:47

nasel sem izvir osnovne napake. S streamreaderjem preberem html output url naslova, ampak le ta pa unici sumnike.

Stream data = client.OpenRead(url);
StreamReader reader = new StreamReader(data);
string s = reader.ReadToEnd();

Lahko bi prebral html kar takole

WebClient client = new WebClient();
String htmlCode = client.DownloadString(url)

ampak sem prebral na netu da to ni priporocljivo. Je pa res da tako delajo vsi sumniki razen ž in spet nevem zakaj. Ne vem niti zakaj Streamreader unici vse sumnike? Kaj predlagate?

Zgodovina sprememb…

spremenilo: Lualah (17. avg 2009 ob 00:02)

Senzacionale :: 17. avg 2009, 10:22

StreamReader reader = new StreamReader(data, Encode.UNICODE);

ali katerokoli kodiranje želiš

http://www.dostavahrane.si

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	[c#] shrani text, tabele, slike japol Oddelek: Programiranje	25	1893 (1499)	Kemalito 20. sep 2012 14:17:05
»	[C# asp.NET web forma] Kam zgine cookie oz. zkj se izbriše? Morenov Oddelek: Programiranje	6	1413 (1227)	Morenov 5. maj 2012 14:37:27
»	ASP.NET + C# vprašanje Morenov Oddelek: Programiranje	34	3211 (2225)	Morenov 7. dec 2011 22:07:18
»	[C#] Simobilov Glasnik zigi Oddelek: Programiranje	13	4771 (1851)	Mrch 19. feb 2009 10:17:17
»	Kako z VS.NET priti do izvorne kode neke html strani? Microsoft Oddelek: Programiranje	9	1620 (1415)	Microsoft 1. feb 2005 01:19:50

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
aspx preberm HTML strani

aspx preberm HTML strani