»

Posnetek 5 miljard spletnih strani na voljo zastonj

5 milijard spletnih strani je na voljo lepo zapakiranih in zastonj.

vir: i-programmer
i-programmer - Vsi, ki morda niso zadovoljni z Googlovimi iskalnimi rezultati ali jih moti, da jim velikan ves čas gleda pod prste, lahko zdaj z relativno nizkimi stroški poskusijo izdelati svoj iskalnik. Fundacija Common Crawl je namreč na svoje stroške shranila 5 milijard spletnih strani in jih ponuja na svojem Amazon S3 računu, zastonj in brez omejitev pri uporabi. S tem so raziskovalcem prihranili znatne stroške izdelave "svoje kopije svetovnega spleta" in na široko odprli vrata za nove analize.

Kopijo so izdelali z lastnim pajkom, spisanim s pomočjo Apache knjižnice Hadoop. Hadoop implementira Googlov framework Map:Reduce, ki je namenjen obdelavi zelo obsežnik zbirk podatkov z razdelitvijo na manjše dele, in ga Google s pridom uporablja za hitro izvedbo svojega iskanja. Vsi podatki so združeni v 100MB velike datoteke, ki hranijo HTML...

7 komentarjev

Mobilna Opera presegla sto milijonov uporabnikov, prihaja na iPad

Opera Web Browser - Vitki norveški brskalnik Opera, ki se je v mobilnem svetu uporabnikom prikupil dosti bolj kot v namiznem, je presegel mejo 100 milijonov mobilnih uporabnikov. Kot so sporočili iz podjetja, 90,4 milijona ljudi uporablja Opero Mini vsak dan, medtem ko jih dodatnih 15 milijonov Opero Mobile zažene vsaj enkrat mesečno. Ob tem poudarimo, da te številke zajemajo le uporabnike, ki so si svojo Opero z interneta prenesli sami in ne tudi tistih, ki so jo že dobili prednaloženo na telefonih in jo nemara uporabljajo. Mobilna Opera tako vsak mesec odpre 52 milijard spletnih strani, kar ni malo.

Hkrati je Opera napovedala, da bodo...

25 komentarjev

Wayback Machine se seli na Sunove strežnike

Slo-Tech leta 2000

ComputerWorld - Organizacija The Internet Archive že mnogo let upravlja znano domeno archive.org, na kateri domuje časovni stroj Wayback Machine, ki nas lahko popelje v preteklost, da se načudimo, kako so včasih izgledale spletne strani. Podatke za praktično vse nekoliko bolj znane in popularne spletne strani shranjujejo od leta 1996, tako da se je v trinajstih letih nabral zajeten kup podatkov. Pravijo, da imajo v arhivih kar 85 milijard spletnih strani, kar skupaj znese tri petabajte podatkov. Za primerjavo, to je 150-krat več, kot vsebuje podatkov ameriška kongresna knjižnica. Vsak mesec pa se ta številka poveča za 100 terabajtov.

Doslej je Wayback Machine uporabljal klasičen podatkovni center z mnogo...

6 komentarjev

Google kaznoval BMW

BBC - Ameriška družba Google, ki upravlja z najbolj razširjenim spletnim iskalnikom na svetu, je ponastavila položaj spletne strani nemškega proizvajalca avtomobilov BMW na izhodiščno mesto. “Smrtno kazen”, kot Googlov ukrep zaradi njegovih drastičnih posledic označujejo nekateri komentatorji, si je BMW prislužil zaradi “preoblačenja” (cloaking) svoje spletne strani, ki je zavajala uporabnike iskalnika.

Googlova preiskava je namreč odkrila, da se je BMW-jeva spletna stran izpisala na prvem mestu zadetkov, ko so uporabniki vpisali iskalni niz “rabljeno vozilo” (nemško: “gebrauchtwagen”). Ko so uporabniki kliknili na zadetek, so bili prestavljeni na BMW-jevo izhodiščno nemško stran, ki pa ima malo skupnega z rabljenimi avtomobili.

BMW-jevo spletno mesto, ki temelji na javanski kodi in je Google zaradi tega ne more prečesati, je namreč precej svobodno obogateno s ključnimi besedami, ki so privabile Googlov sistem za indeksiranje. Čeprav takšno početje ne krši nobenega zakona, pa je v...

51 komentarjev

Yahoojevo hvalisanje na trhlih nogah

Slo-Tech - Yahoojevi strokovnjaki so nedavno objavili, da so krepko povečali Yahoojevo bazo podatkov in da tako lahko išče po 20 milijardah spletnih strani, kar se zdi v primerjavi z Googlovimi osmimi relativno veliko. Kljub temu ostaja občutek, da Google najde več.

Pri NCSA so se odločili preveriti to trditev. Spisali so skripto v PERL-u, ki je izbrala dobrih deset tisoč besed iz angleškega slovarja in preverila, koliko zadetkov najdeta Google in Yahoo, s čimer so poskušali nekako oceniti velikost njune baze podatkov. Rezultati so pokazali, da Google povprečno najde 167 % več strani kot Yahoo, tako da je v 97 % vseh iskanj Google učinkovitejši. Slashdot.

31 komentarjev