5 milijard spletnih strani je na voljo lepo zapakiranih in zastonj.
vir: i-programmerKopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML vsebino spletnih strani + nekaj indeksnih podatkov, skupaj s PageRankom. Datoteke so dalje zložene v amazonove buckete, za katere je Fundacija obljubila trajno plačevanje. Dostop do njih je v osnovi brezplačen, dokler se jih ne kopira ven iz Amazona oz. seli na drugo njihovo regijo (npr. iz ZDA v Evropo). Še vedno bo treba plačati stroške za nakup zadostnih procesorskih zmogljivosti (štart EC2 clustra), kar se ocenjuje na 100 dolarjev za eno celotno obdelavo podatkov. Za iskalnik bo tako bržčas še potrebna lastna kopija teh podatkov, pridejo pa na misel številne analize, npr. iskanje najbolj popularnih časopisov in bloggerjev, lovljenje plagiatorjev in tatov, kdo kopira od koga, koliko je spama, merjenje popularnosti jezikov, leksikalne analize, določanje deleža Wordpressa pri poganjanju novejših spletnih strani in tako dalje in tako dalje.
Seveda to niti pod razno še ni vse. Google je že 3 leta nazaj zabeležil bilijon unikatnih spletnih strani v svojem indeksu, dnevno pa se to število poveča še za dodatnih 150.000. Fundacija tako še nima niti 1% celotnega spleta.