Internet Archive rešil 9 milijonov povezav na Wikipediji

Matej Huš

3. okt 2018 ob 16:05:35

Eden večjih problemov interneta je propadanje povezav do spletnih strani, zaradi česar v starejših besedil mrgoli povezav, ki niso več aktivne, saj so bile ciljne vsebine umaknjene. Raziskave kažejo, da je "razpolovni čas" hiperpovezav zgolj dve leti - torej bo po toliko časa polovica hiperpovezav nedelujočih. Ta problem je še zlasti pereč v Wikipediji, ki zunanje vsebine uporablja kot vire. Zaradi tega Internet Archive, ki si prizadeva arhivirati čim več spleta, že več kot pet let posebej aktivno spremlja Wikipedijo. V tem času so rešili več kot 9 milijonov hiperpovezav.

Na Wikipediji se vsak teden popravi, zamenja ali doda več kot 20 milijonov novih hiperpovezav. Internet Archive že dobra tri leta uporablja pajka IABot, ki redno prečesava vse hiperpovezave, ki se pojavijo v člankih na Wikipedija. Kakor najde kakšno, ki vodi do strani 404 Ne obstaja ali kaj podobnega, v članku zamenja povezavo z zadnjo delujočo verzijo v Wayback Machine. Na tak način je ohranjena arhivska kopija spletne strani, na katero se Wikipedija sklicuje.

Ta pajek je doslej popravil več kot šest milijonov hiperpovezav, še tri milijone pa so jih uporabniki popravili ročno. Statistika tako pokaže, da največ povezav na Wikipedija že vodi do domene web.archive.org. Na drugem mestu je trikrat manj pogost books.google.com.