Kadar želite kaj skriti, bodite temeljiti

Matej Kovačič

14. nov 2003 ob 14:15:58

Kljub temu, da je na internetu ogromno informacij, ki bi jih človek nepovezane le stežka našel, se veliko teh informacij centralno arhivira na različnih iskalnikih, zato načeloma nimamo problemov, če želimo te razpršene informacije najti.

Problem pa nastopi, če kakšne informacije v iskalniku ni. Lastniki spletnih strani namreč lahko na svojem strežniku ustvarijo posebno datoteko z imenom robots.txt, v kateri določijo, do katerih spletnih mest naj iskalni roboti (programi, ki iščejo in arhivirajo spletne strani) ne dostopajo. Sicer se iskalni roboti teh navodil niso obvezani držati, vendar jih načeloma spoštujejo.

Drugo vprašanje je seveda, zakaj bi si kdo želel, da njegove spletne strani ali njenih delov ni v iskalniku. Administratorji spletnih strežnikov se za to možnost pogosto odločajo zato, ker ne želijo, da jim iskalni roboti prekomerno obremenjujejo strežnik, lahko pa si seveda želijo, da nekatere informacije ne bi bile preveč javno dostopne. To morda še bolj velja za različne spletne dokumente starejšega datuma, na katere je morda lastnik spletnega strežnika že malce pozabil. Ali pa je med tem morda celo objavil novejše dokumente v katerih trdi nekaj drugega, kot v starejših ... Seveda takšno "skrivanje" dokumentov ni ravno učinkovito, saj se vsi iskalniki ne držijo navodil v robots.txt. Dokumente je veliko bolje izbrisati.

Podobno so morda razmišljali v Beli hiši. Njihova datoteka robots.txt vsebuje kar 1.604 spletnih mest, za katere Georgie in prijatelji ne želijo, da se znajdejo v iskalnikih. Od tega pa - zanimivo - kar 46,5% oziroma 746 spletnih mest v URL-ju vsebuje besedico Iraq. Hkrati pa so bili administratorji Bele hiše še nekoliko bolj temeljiti in so večino - natančneje 745 od teh spletnih mest tudi izbrisali iz svojega strežnika. Od "prepovedanih" spletnih mest je dostopen samo še en sam samcat URL, ki pa ne vsebuje le nekaj naključnih znakov. Glede na to, da nekoliko bolj specializirano iskanje s pomočjo Googla na področju Bele hiše najde nekaj tisoč zadetkov (včeraj 1.810, danes 2.740), očitno Irak ni na splošno "prepovedana tema", pač pa želi Bela hiša skriti le nekatera spletna mesta. Od spletnih mest, ki v URL-ju vsebujejo besedico "iraq" jih je izbrisanih 99,9 %, od ostalih, ki ne vsebujejo besedice "iraq", pa jih je izbrisanih le 36,4%. Zanimivo, kajne?

Nerodno je tudi, da so bili pri "skrivanju" očitno tako nespretni, da so izbrisana spletna mesta pozabili odstraniti iz robots.txt in je tako ostala elektronska sled o njihovem obstoju.

Vsekakor pa bi bilo zanimivo videti vsebino odstranjenih spletnih mest in jo primerjati z novejšimi ameriškimi izjavami in dokumenti o Iraku ...