»

Posnetek 5 miljard spletnih strani na voljo zastonj

5 milijard spletnih strani je na voljo lepo zapakiranih in zastonj.

vir: i-programmer
i-programmer - Vsi, ki morda niso zadovoljni z Googlovimi iskalnimi rezultati ali jih moti, da jim velikan ves čas gleda pod prste, lahko zdaj z relativno nizkimi stroški poskusijo izdelati svoj iskalnik. Fundacija Common Crawl je namreč na svoje stroške shranila 5 milijard spletnih strani in jih ponuja na svojem Amazon S3 računu, zastonj in brez omejitev pri uporabi. S tem so raziskovalcem prihranili znatne stroške izdelave "svoje kopije svetovnega spleta" in na široko odprli vrata za nove analize.

Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML...

7 komentarjev

Yahoo bo hranil osebne podatke le tri mesece

Yahoo News - Yahoo je objavil, da bo odslej osebne podatke, ki jih zbere, ko uporabniki iščejo po spletu z njegovim orodjem, hranil le tri mesece. Po tem času oz. največ šestih mesecih, če bodo sumili na nelegalne aktivnosti, bodo zbrane podatke anonimizirali. Pred tem je to časovno obdobje znašalo 13 mesecev.

Google je svoj čas hranjenja občutjivih informacij septembra zmanjšal na devet mesecev, Microsoft pa se je na negodovanje Evropske komisije o hranjenju podatkov več kot pol leta odzval z nakano, da bodo uveljavili šestmesečno dobo le, če bosta to storila tudi Google in Yahoo. Štafetno palico ima sedaj Google.

7 komentarjev

Blogi kot terapija

Slashdot - Blogi oziroma spletni dnevniki, žnevniki, kakor jih je poimenoval Jonas - sami presodite, če bi ta izraz sprejeli - so postali v zadnjem času pravi hit, pišejo pa jih tudi mnogi Slo-Techovci. Ukvarjajo se z različnimi zadevami, od aktualnopolitičnega dogajanja, znanosti, športa do povsem osebnih stvari. In prav slednjih naj bi bilo največ.

Rezultati AOL-ove raziskave kažejo, da več kot polovica piscev piše o zasebnih stvareh in ne toliko o politiki. Na vprašanje, zakaj vztrajajo pri pisanju, jih je skoraj 49 odstotkov odgovorilo, da ker služi kot neke vrste terapija, ventil pri spopadanju s težavami. Razlogi za branje drugih blogov pa so zabava, druga perspektiva o dogajanju, komuniciranje z ostalimi bralci pri komentiranju in opravljanje. Slashdot.

Čemu pa vi pišete svoj blog?

33 komentarjev

Yahoojevo hvalisanje na trhlih nogah

Slo-Tech - Yahoojevi strokovnjaki so nedavno objavili, da so krepko povečali Yahoojevo bazo podatkov in da tako lahko išče po 20 milijardah spletnih strani, kar se zdi v primerjavi z Googlovimi osmimi relativno veliko. Kljub temu ostaja občutek, da Google najde več.

Pri NCSA so se odločili preveriti to trditev. Spisali so skripto v PERL-u, ki je izbrala dobrih deset tisoč besed iz angleškega slovarja in preverila, koliko zadetkov najdeta Google in Yahoo, s čimer so poskušali nekako oceniti velikost njune baze podatkov. Rezultati so pokazali, da Google povprečno najde 167 % več strani kot Yahoo, tako da je v 97 % vseh iskanj Google učinkovitejši. Slashdot.

31 komentarjev