Posnetek 5 miljard spletnih strani na voljo zastonj

Mandi :: 15. nov 2011 ob 15:55
Omrežja / internet

5 milijard spletnih strani je na voljo lepo zapakiranih in zastonj.

i-programmer - Vsi, ki morda niso zadovoljni z Googlovimi iskalnimi rezultati ali jih moti, da jim velikan ves čas gleda pod prste, lahko zdaj z relativno nizkimi stroški poskusijo izdelati svoj iskalnik. Fundacija Common Crawl je namreč na svoje stroške shranila 5 milijard spletnih strani in jih ponuja na svojem Amazon S3 računu, zastonj in brez omejitev pri uporabi. S tem so raziskovalcem prihranili znatne stroške izdelave "svoje kopije svetovnega spleta" in na široko odprli vrata za nove analize.

Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML vsebino spletnih strani + nekaj indeksnih podatkov, skupaj s PageRankom. Datoteke so dalje zložene v amazonove buckete, za katere je Fundacija obljubila trajno plačevanje. Dostop do njih je v osnovi brezplačen, dokler se jih ne kopira ven iz Amazona oz. seli na drugo njihovo regijo (npr. iz ZDA v Evropo). Še vedno bo treba plačati stroške za nakup zadostnih procesorskih zmogljivosti (štart EC2 clustra), kar se ocenjuje na 100 dolarjev za eno celotno obdelavo podatkov. Za iskalnik bo tako bržčas še potrebna lastna kopija teh podatkov, pridejo pa na misel številne analize, npr. iskanje najbolj popularnih časopisov in bloggerjev, lovljenje plagiatorjev in tatov, kdo kopira od koga, koliko je spama, merjenje popularnosti jezikov, leksikalne analize, določanje deleža Wordpressa pri poganjanju novejših spletnih strani in tako dalje in tako dalje.

Seveda to niti pod razno še ni vse. Google je že 3 leta nazaj zabeležil bilijon unikatnih spletnih strani v svojem indeksu, dnevno pa se to število poveča še za dodatnih 150.000. Fundacija tako še nima niti 1% celotnega spleta.

7 komentarjev

tattoo :: 15. nov 2011, 17:59

Kaj pod eno spletno stran je mišljen naslov, npr. www.siol.net in se v to štejejo vse njegove podstrani ali se vsaka podstran šteje kot posamezna spletna stran?

Good Guy :: 15. nov 2011, 18:45

Fail vse skupi

http://goo.gl/7ItKpU
Naj računalnik dela za vas^^

sverde21 :: 15. nov 2011, 19:33

Now I can download teh internetz :))

<?php echo `w`; ?>

poweroff :: 15. nov 2011, 19:51

Začetek je pa le. Vsekakor dobrodošla konkurenca Googlu. Kaj pa Web.Archive.Org?

sudo poweroff

popster :: 16. nov 2011, 08:43

Predvidevam, da govoriš o hitrosti?

ni dovolj dnarja za diske:)

Phoebus :: 16. nov 2011, 08:53

tattoo je 15. nov 2011 ob 17:59 izjavil:

Kaj pod eno spletno stran je mišljen naslov, npr. www.siol.net in se v to štejejo vse njegove podstrani ali se vsaka podstran šteje kot posamezna spletna stran?

Spletna stran (web page) je podstran. Spleno mesto (website) je pa celotni siol.net.

Zgodovina sprememb…

spremenil: Phoebus (16. nov 2011 ob 08:53)

tattoo :: 16. nov 2011, 10:16

Phoebus je 16. nov 2011 ob 08:53 izjavil:

tattoo je 15. nov 2011 ob 17:59 izjavil:
Kaj pod eno spletno stran je mišljen naslov, npr. www.siol.net in se v to štejejo vse njegove podstrani ali se vsaka podstran šteje kot posamezna spletna stran?

Spletna stran (web page) je podstran. Spleno mesto (website) je pa celotni siol.net.

Hvala

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	MongoDB ragezor Oddelek: Programiranje	15	2276 (926)	acookook 1. dec 2020 20:15:33
»	Mozilla popustila; prihodnje verzije Firefoxa bodo vključevale Adobe Access DRM (strani: 1 2 ) Mandi Oddelek: Novice / Brskalniki	71	28540 (23977)	Mipe 25. maj 2014 10:52:16
»	Mozilla zaključuje z razvojem Thunderbirda (strani: 1 2 3 ) Mandi Oddelek: Novice / Ostala programska oprema	125	36885 (32831)	Icematxyz 14. jul 2012 02:04:56
»	Tržna vrednost slo spletnih strani? lordvader Oddelek: Omrežja in internet	42	5758 (3341)	Lion29 14. feb 2011 23:43:07
»	EU želi spremljati kaj iščemo po spletu (strani: 1 2 3 ) poweroff Oddelek: Novice / Zasebnost	116	24752 (21915)	Thomas 24. jun 2010 20:06:20

Tema

Sporočila

Ogledi

Zadnje sporočilo

Tema

Sporočila

Ogledi

Zadnje sporočilo

MongoDB

ragezor

Oddelek: Programiranje

2276 (926)

acookook 1. dec 2020 20:15:33

Mozilla popustila; prihodnje verzije Firefoxa bodo vključevale Adobe Access DRM (strani: 1 2 )

Mandi

Oddelek: Novice / Brskalniki

28540 (23977)

Mipe 25. maj 2014 10:52:16

Mozilla zaključuje z razvojem Thunderbirda (strani: 1 2 3 )

Mandi

Oddelek: Novice / Ostala programska oprema

125

36885 (32831)

Icematxyz 14. jul 2012 02:04:56

Tržna vrednost slo spletnih strani?

lordvader

Oddelek: Omrežja in internet

5758 (3341)

Lion29 14. feb 2011 23:43:07

EU želi spremljati kaj iščemo po spletu (strani: 1 2 3 )

poweroff

Oddelek: Novice / Zasebnost

116

24752 (21915)

Thomas 24. jun 2010 20:06:20

Zadnje novice

Zadnji članki

Išči:

Novice » Omrežja / internet »
Posnetek 5 miljard spletnih strani na voljo zastonj

Posnetek 5 miljard spletnih strani na voljo zastonj