» »

Slo-tech rss feed

Slo-tech rss feed

DubleG ::

Ker morem na novo napisat vtičnik za rss, se ubadam s tem, da ST RSS XML ni tako čist kot je naprimer 24ur.com ampak je pomešan s htmljem. Naprimer:
<opis_novice>nVidiin čip, ki bo pokrival srednji del grafičnega trga, GF104, naj bi bil <a href="http://www.fudzilla.com/content/view/18404/1/">po poročanju Fudzille že na robu izdelave, saj je dosegel t.i. <a href="http://en.wikipedia.org/wiki/Tape-out">fazo tape-outa, ko je dizajn samega čipa dokončan, maske za <a href="http://en.wikipedia.org/wiki/Photolithography">fotolitografijo pa poslane v izdelavo. GF104 naj bi namesto linije GTX predstavljal <a href="http://vr-zone.com/articles/-rumour-nvidia-gf104-taped-out-summer-release/8797.html">linijo GTS 400, ki bo najverjetneje konkurirala ATI-jevi seriji 5700, medtem ko naj bi bil najhitrejši čip konkurenca celo Radeonu HD 5830. <a href="http://slo-tech.com/novice/t411353">Več na Slo-Techu</opis_novice> 


Kako naj to očistim?
Probal sem že Regex, pa mi odstrani tudi vsebino, znotraj html tagov.
GA-P55M-UD2,i5,12GB RAM,Radeon HD 4850,Crucial SSD 64GB,
WD 320GB,WD 5000GB,RevoDrive X2 100GB

DubleG ::

<a href="http://en.wikipedia.org/wiki/Photolithography">


Vsebino oz. povezavo pa potrebujem.

Še hujši so primeri, kjer je not tudi js.
GA-P55M-UD2,i5,12GB RAM,Radeon HD 4850,Crucial SSD 64GB,
WD 320GB,WD 5000GB,RevoDrive X2 100GB

W3by ::

Nared si parser, ki odstrani vse HTML značke v objavi - začne z < in konča z >. Vsebina se v tem primeru ohrani. V katerem jeziku programiraš?

DubleG ::

C#

Seveda, to je možnost. Sem pisal in najdel neke regularne izraze, pa mi konstantno zjebe vse možno.
Problem nastane pri vključenih zunanjih posnetkih ali javascriptu, kako tu izbrskat vsebino, ki je zanimiva, in tista ki ni. Če veš kaj mislim...

<div class="imagehttp://static.slo-tech.com/44563.jpg" title="vecja slika" rel="lightbox<img src="http://static.slo-tech.com/44563sm.jpg" alt=" Pakiranje Phenom II X6" height="125" width="200" /><div class="data<p class="editable Pakiranje Phenom II X6</p><span class="sourcevir: http://en.Expreview.comExpreview.com</span></div><div class="clear</div></div>
GA-P55M-UD2,i5,12GB RAM,Radeon HD 4850,Crucial SSD 64GB,
WD 320GB,WD 5000GB,RevoDrive X2 100GB

Spura ::

Ker morem na novo napisat vtičnik za rss, se ubadam s tem, da ST RSS XML ni tako čist kot je naprimer 24ur.com ampak je pomešan s htmljem. Naprimer:
<opis_novice>nVidiin čip, ki bo pokrival srednji del grafičnega trga, GF104, naj bi bil <a href="http://www.fudzilla.com/content/view/18404/1/">po poročanju Fudzille že na robu izdelave, saj je dosegel t.i. <a href="http://en.wikipedia.org/wiki/Tape-out">fazo tape-outa, ko je dizajn samega čipa dokončan, maske za <a href="http://en.wikipedia.org/wiki/Photolithography">fotolitografijo pa poslane v izdelavo. GF104 naj bi namesto linije GTX predstavljal <a href="http://vr-zone.com/articles/-rumour-nvidia-gf104-taped-out-summer-release/8797.html">linijo GTS 400, ki bo najverjetneje konkurirala ATI-jevi seriji 5700, medtem ko naj bi bil najhitrejši čip konkurenca celo Radeonu HD 5830. <a href="http://slo-tech.com/novice/t411353">Več na Slo-Techu</opis_novice> 


Kako naj to očistim?
Probal sem že Regex, pa mi odstrani tudi vsebino, znotraj html tagov.
V regexu naredis 2 capture grupi (oziroma eno dodatno, cel regex je implicitno ena capture grupa). Ena capture grupa je cel regex (tag, text, tag), drugi capture je pa samo text med tagi. Odstranis prvo grupo iz vhoda in vstavis drugo. Ampak to je slepa ulica.

Je pa treba vedet, da HTMLja ne mores z regexom parsat, kar je bilo na faksu tudi razlozeno.

Lahko pa naredis kak analizator z uporabo DOM XML parserja (se mi zdi da tut na HTMLju dela).

DubleG ::

Problem so vključeni youtube posnetki in značke odprtega tipa za povezave, kjer pride vmes kaka povezava ali tekst. To očistit je umetnost.

Nek način mora obstajat...
GA-P55M-UD2,i5,12GB RAM,Radeon HD 4850,Crucial SSD 64GB,
WD 320GB,WD 5000GB,RevoDrive X2 100GB

Spura ::

Kot sm reku. DOM XML parser ti naredi lepo drevesno strukturo, po kateri se potem lahko sprehajas in izpisujes kar ti pac sede.
Edit: SAX XML parser je tut dovolj naceloma.

Zgodovina sprememb…

  • spremenil: Spura ()

Primoz ::

DubleG: za kam pa to delaš?
There can be no real freedom without the freedom to fail.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
!

Vse, kar ste si želeli vprašati o CSS, pa si niste upali. (strani: 1 2 3 423 24 25 26 )

Oddelek: Izdelava spletišč
1297330297 (54446) htmltroubles
»

CSS problemi (strani: 1 2 )

Oddelek: Izdelava spletišč
519297 (7096) nuuush
»

3 divi v divu in float

Oddelek: Izdelava spletišč
101667 (1551) alexa-lol
»

CSS in začetniški problemi

Oddelek: Izdelava spletišč
71408 (1224) t3hn0
»

vremenska karta

Oddelek: Izdelava spletišč
214467 (4136) misko62

Več podobnih tem