Posnetek 5 miljard spletnih strani na voljo zastonj

Mandi

15. nov 2011 ob 15:55:08

Vsi, ki morda niso zadovoljni z Googlovimi iskalnimi rezultati ali jih moti, da jim velikan ves čas gleda pod prste, lahko zdaj z relativno nizkimi stroški poskusijo izdelati svoj iskalnik. Fundacija Common Crawl je namreč na svoje stroške shranila 5 milijard spletnih strani in jih ponuja na svojem Amazon S3 računu, zastonj in brez omejitev pri uporabi. S tem so raziskovalcem prihranili znatne stroške izdelave "svoje kopije svetovnega spleta" in na široko odprli vrata za nove analize.

Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML vsebino spletnih strani + nekaj indeksnih podatkov, skupaj s PageRankom. Datoteke so dalje zložene v amazonove buckete, za katere je Fundacija obljubila trajno plačevanje. Dostop do njih je v osnovi brezplačen, dokler se jih ne kopira ven iz Amazona oz. seli na drugo njihovo regijo (npr. iz ZDA v Evropo). Še vedno bo treba plačati stroške za nakup zadostnih procesorskih zmogljivosti (štart EC2 clustra), kar se ocenjuje na 100 dolarjev za eno celotno obdelavo podatkov. Za iskalnik bo tako bržčas še potrebna lastna kopija teh podatkov, pridejo pa na misel številne analize, npr. iskanje najbolj popularnih časopisov in bloggerjev, lovljenje plagiatorjev in tatov, kdo kopira od koga, koliko je spama, merjenje popularnosti jezikov, leksikalne analize, določanje deleža Wordpressa pri poganjanju novejših spletnih strani in tako dalje in tako dalje.

Seveda to niti pod razno še ni vse. Google je že 3 leta nazaj zabeležil bilijon unikatnih spletnih strani v svojem indeksu, dnevno pa se to število poveča še za dodatnih 150.000. Fundacija tako še nima niti 1% celotnega spleta.