» »

Vir TV sporedov

Vir TV sporedov

Giller0 ::

Zanima me od kod določeni portali in spletni tv sporedi črpajo vsebino?
Obstajajo kaki spletni servisi, ki servirajo program in so na voljo vsem developerjem?


Hvala, lp.
Jow..

misek ::

Verjetno imajo dogovor/pogodbo s TV hišami.
Za lastno uporabo pa je najlažje parsati kar HTML vsebino z javno dostopnih strani.

techfreak :) ::

Siol ima verjetno najbolj obširen TV spored, torej se splača parsati pri njih. Večina televizijskih programov pa ima tako svojo spletno stran, kjer ga lahko parsaš - ampak tam boš moral za vsak program posebej, poleg tega pa boš težko našel slovenski spored za tuje programe.

Giller0 ::

Parsanje siolove strani bi bila opcija.

Po hitrem premisleku sicer vidim 2 težavi. Prva je, da lahko parser crkne po vsaki spremembi strani. Druga pa, da so v seznamu navedeni slovenski naslovi. Šele, ko odpreš detail vsakega filma ali nadaljevanke, so angleški titli (rabim pa oba).

Hvala obema za odgovor. Če pa kdo pozna še kakšen način, pa kar :)
Jow..

misek ::

Siol-ov Vistin gadget uporablja direktno XML datoteke s podatki. Za vsak program in za vsak dan svojo. Očitno pa imajo nekakšno zaščito dostopa, saj sem delal na kodi, ki bi pobrala VSE podatke naenkrat serijsko. Zadeva je odlično delovala 2 dni, pol pa je popolnoma prenehala z dotičnega IP naslova. Kljub temu, da sem med posameznimi povpraševanji dal naključno pavzo.

techfreak :) ::

Misek: Lahko pa preizkusiš z uporabo proxyjev, kjer te bodo težje blokirali.

misek ::

Ja, bi šlo. En seznam le-teh pa random menjava. Ampak sem potem raje ubral parsanje HTML kode. Enostavno opravilo, je pa res potrebno spreminjati ob vsaki večji spremembi spletne strani. Ampak to nit tako pogosto.

techfreak :) ::

Parsanje katere strani pa? Za vsako postajo posebej?

misek ::

SIOL, AMIS, T-2. Za vsako svoj scraper.

Giller0 ::

misek je izjavil:

Siol-ov Vistin gadget uporablja direktno XML datoteke s podatki. Za vsak program in za vsak dan svojo. Očitno pa imajo nekakšno zaščito dostopa, saj sem delal na kodi, ki bi pobrala VSE podatke naenkrat serijsko. Zadeva je odlično delovala 2 dni, pol pa je popolnoma prenehala z dotičnega IP naslova. Kljub temu, da sem med posameznimi povpraševanji dal naključno pavzo.


Lahko zaupaš na kak način si klical te xml datoteke? Problemu, ki ga opisuješ, bi se morda lahko izognil tako, da bi vsak dan poizvedbo opravil le enkrat in podatke shranil v svojo bazo.

Hvala za pomoč. Lp.
Jow..

Zgodovina sprememb…

  • spremenil: Giller0 ()

techfreak :) ::

@misek: Čeprav kolikor sem enkrat gledal, Siol ni ravno scraper-friendly pri tv-spored.aspx, ker ga moraš podkupiti s piškotkom.:D

Zgodovina sprememb…

misek ::

Mu pač daš en keks in kakav pa je ;)

Sicer pa je koda za gadget v javascript-u in sem jo moral pretvoriti v PHP. Nič posebnega ko pogruntaš kako deluje. Trik je v tem, da je potrebno izračunati eno MD5 vrednost iz razlike časov na strežniku in odjemalcu. Potem pa to vrednost dati zraven vsake zahteve.
Giller0, sem delal poizvedbe samo 4x na dan ampak za vseh 100+ programov. Očitno je bil čas med programi prekratek.

McNato ::

Avtor pograma MulticastTV ima objavljeno izvorno kodo svojega parserja (download). Uporabljam od konca lanskega leta, zaenkrat še deluje.

detroit ::

hehe jst sm se za foro učeri lotu delat spored z 24ur.com, škoda da čas ne dovoljuje drugače bi še dokončal lahko to :P

zaenkrat sm na začetku, mam dva načina ena je da bi iz xhtmlja xml naredu (zgleda da ne bo pelal direkt), ali pa regex. Sam ne znam regex stringa prou sestavt še. Mogoče kdo ve kako se pobere recimo vse
<h3>dadfafda</h3>
. Moj regex matches string je
<h3>.*</h3>
ampak mi vrne vse od h3 pa do naslednjga h3.



če bo čas bom prvič naredu kot form program, pol kot service in front end silverlight za hobi.
Skero

Zgodovina sprememb…

  • spremenil: detroit ()

commissar ::

probej
 <h3>.*?</h3>

Zgodovina sprememb…

misek ::

Uporabna funkcija get_string_between.

detroit ::

seems like php:D jst uporabljam c#

thanks anyway
Skero

techfreak :) ::

get_string_between se mi zdi počasnejši od preg_match, poleg tega pa lahko samo en tag naenkrat. Poglej si regex-e iz McNatove kode.

misek ::

Glavno da deluje ;)

Sicer pa sem se v PHP igral tudi z DOM - Document Object Model. V tem primeru se lepo premikaš po posameznih delih HTML-ja - po njegovih node-ih. Deluje fantastično, potrebuje pa neprimerno več pomnilnika. Večja HTML stran => več pomnilnika.

link_up ::

epg provider skoraj vseh ponudnikov je revija STOP, ki najmanj dvakrat na dan izda xml datoteke. Tako, da ni potrebno nicesar parsat. :)
In and Out

misek ::

Kakšen link poleg novice ne bi škodil ;)

detroit ::

link_up je izjavil:

epg provider skoraj vseh ponudnikov je revija STOP, ki najmanj dvakrat na dan izda xml datoteke. Tako, da ni potrebno nicesar parsat. :)

tell us more? nism čist prepričan kje je service za to
Skero

Giller0 ::

Tudi jaz prosim za link!
Jow..

Alexius Heristalski ::

Mogoče tole kaj pomaga: Phazer XMLTV service
fantje, ni blo slabo, samo dajte še v herbicidščini

link_up ::

datoteke pridejo na ftp providerja v tva8 formatu...zal linkov ni, ker se to placuje.
In and Out


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

[UWP] [C#]

Oddelek: Programiranje
424180 (2210) BivšiUser2
»

C# WPF nalaganje info. iz XML dokumenta

Oddelek: Programiranje
61027 (847) MrStein
»

C# Web Service

Oddelek: Programiranje
9866 (641) abyssus
»

[stari dobri C] Kako sparsati XML?

Oddelek: Programiranje
101574 (1327) Apple
»

IE mi ne osveži strani ( Flash , XML )?

Oddelek: Izdelava spletišč
101811 (1697) Cokolesnik

Več podobnih tem