» »

Posnetek 5 miljard spletnih strani na voljo zastonj

Posnetek 5 miljard spletnih strani na voljo zastonj

5 milijard spletnih strani je na voljo lepo zapakiranih in zastonj.

vir: i-programmer
i-programmer - Vsi, ki morda niso zadovoljni z Googlovimi iskalnimi rezultati ali jih moti, da jim velikan ves čas gleda pod prste, lahko zdaj z relativno nizkimi stroški poskusijo izdelati svoj iskalnik. Fundacija Common Crawl je namreč na svoje stroške shranila 5 milijard spletnih strani in jih ponuja na svojem Amazon S3 računu, zastonj in brez omejitev pri uporabi. S tem so raziskovalcem prihranili znatne stroške izdelave "svoje kopije svetovnega spleta" in na široko odprli vrata za nove analize.

Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML vsebino spletnih strani + nekaj indeksnih podatkov, skupaj s PageRankom. Datoteke so dalje zložene v amazonove buckete, za katere je Fundacija obljubila trajno plačevanje. Dostop do njih je v osnovi brezplačen, dokler se jih ne kopira ven iz Amazona oz. seli na drugo njihovo regijo (npr. iz ZDA v Evropo). Še vedno bo treba plačati stroške za nakup zadostnih procesorskih zmogljivosti (štart EC2 clustra), kar se ocenjuje na 100 dolarjev za eno celotno obdelavo podatkov. Za iskalnik bo tako bržčas še potrebna lastna kopija teh podatkov, pridejo pa na misel številne analize, npr. iskanje najbolj popularnih časopisov in bloggerjev, lovljenje plagiatorjev in tatov, kdo kopira od koga, koliko je spama, merjenje popularnosti jezikov, leksikalne analize, določanje deleža Wordpressa pri poganjanju novejših spletnih strani in tako dalje in tako dalje.

Seveda to niti pod razno še ni vse. Google je že 3 leta nazaj zabeležil bilijon unikatnih spletnih strani v svojem indeksu, dnevno pa se to število poveča še za dodatnih 150.000. Fundacija tako še nima niti 1% celotnega spleta.

7 komentarjev

tattoo ::

Kaj pod eno spletno stran je mišljen naslov, npr. www.siol.net in se v to štejejo vse njegove podstrani ali se vsaka podstran šteje kot posamezna spletna stran?

Good Guy ::

Fail vse skupi
http://goo.gl/7ItKpU
Naj računalnik dela za vas^^

sverde21 ::

Now I can download teh internetz :))
<?php echo `w`; ?>

Matthai ::

Začetek je pa le. Vsekakor dobrodošla konkurenca Googlu. Kaj pa Web.Archive.Org?
All those moments will be lost in time, like tears in rain...
Time to die.

popster ::

Predvidevam, da govoriš o hitrosti?

ni dovolj dnarja za diske:)

Phoebus ::

tattoo je izjavil:

Kaj pod eno spletno stran je mišljen naslov, npr. www.siol.net in se v to štejejo vse njegove podstrani ali se vsaka podstran šteje kot posamezna spletna stran?

Spletna stran (web page) je podstran. Spleno mesto (website) je pa celotni siol.net.

Zgodovina sprememb…

  • spremenil: Phoebus ()

tattoo ::

Phoebus je izjavil:

tattoo je izjavil:

Kaj pod eno spletno stran je mišljen naslov, npr. www.siol.net in se v to štejejo vse njegove podstrani ali se vsaka podstran šteje kot posamezna spletna stran?

Spletna stran (web page) je podstran. Spleno mesto (website) je pa celotni siol.net.


Hvala :)


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Mozilla popustila; prihodnje verzije Firefoxa bodo vključevale Adobe Access DRM (strani: 1 2 )

Oddelek: Novice / Brskalniki
7114950 (10387) Mipe
»

MongoDB

Oddelek: Programiranje
111142 (573) Shinobi
»

Mozilla zaključuje z razvojem Thunderbirda (strani: 1 2 3 )

Oddelek: Novice / Ostala programska oprema
12520493 (16439) Icematxyz
»

Tržna vrednost slo spletnih strani?

Oddelek: Omrežja in internet
424538 (2121) Lion29
»

EU želi spremljati kaj iščemo po spletu (strani: 1 2 3 )

Oddelek: Novice / Zasebnost
11615087 (12250) Thomas

Več podobnih tem