Posnetek 5 miljard spletnih strani na voljo zastonj
5 milijard spletnih strani je na voljo lepo zapakiranih in zastonj.
vir: i-programmeri-programmer - Vsi, ki morda niso zadovoljni z Googlovimi iskalnimi rezultati ali jih moti, da jim velikan ves čas gleda pod prste, lahko zdaj z relativno nizkimi stroški poskusijo izdelati svoj iskalnik. Fundacija Common Crawl je namreč na svoje stroške shranila 5 milijard spletnih strani in jih ponuja na svojem Amazon S3 računu, zastonj in brez omejitev pri uporabi. S tem so raziskovalcem prihranili znatne stroške izdelave "svoje kopije svetovnega spleta" in na široko odprli vrata za nove analize.
Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML...
Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML...