» »

Web scraping

Web scraping

cvene89 ::

Pozdravljeni.

V sredo imam prvi razgovor za službo, kjer sem dobil testno nalogo. Ker se s čim podobnim še nisem srečal, me zanima, če lahko kdo poda kakšne smernice kako/s čim se lotiti reševanja. Najpreprosteje naj bi bilo z uporabo jQuery/AJAX, ampak ne najdem nobenega pametnega tutoriala.

NALOGA:
Na spletni strani http://www.siranet.si/detail.aspx?ID=30... zajemite vse podatke za Zgodovinski arhiv Celje (ZAC) do vključno nivoja Fond/[zbirka] in jih shranite v drevesno strukturo.
Zbrani podatki morajo biti smiselno uvrščeni v drevesno strukturo, kjer se zbrani ključi lahko med seboj razlikujejo. Podatki ne smejo imeti HTML značk.

Smernice, ki pa se jih ni potrebno togo držati:
- Naloga se lahko reši z uporabo PHP skripte ali javascript knjižnic.
- Podatkovna struktura je lahko jSON ali asociativno polje.

Senitel ::

Poglej si PhantomJS.

Looooooka ::

Če je več strani in imajo vsaj neko konsistentno obliko uporabi katero koli xpath knjižnico. Začneš pri prvi strani in napišeš kdo tako, da se lepo loppa po straneh, parsa in shranjuje vsebino. Ponavadi moraš za vsako podstran proceduro malce popraviti, da zajameš vse podatke in to je to.

Roadkill ::

Predvsem vedi. da tvoj potencialni delodajalec zelo verjetno prebira slo-tech.

Jaz bi se zadeve lotil s kakim pythonom, ampak gre verjetno za PHP job, tako da nimaš izbire.
Ü


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Izginjanje prostora na disku

Oddelek: Pomoč in nasveti
10934 (752) para!
»

parsanje podatkov iz strani

Oddelek: Programiranje
131960 (1755) commissar
»

Vprasanje glede Visual Studio 2010 Ultimate - vec projektov v solution-u

Oddelek: Programiranje
5651 (530) Vesoljc
»

Ocenitev enega projekta

Oddelek: Izdelava spletišč
7988 (885) HardFu
»

Hlajenje zakaj??

Oddelek: Hlajenje in modifikacije
91270 (1019) tha_man

Več podobnih tem