» »

Nekoč je bil robots.txt

Nekoč je bil robots.txt

Cloudflare - Vsako spletišče je imelo v korenskem direktoriju datoteko robots.txt, v kateri so bila navodila za pajke, ki se plazijo po internetu. V njej smo lahko na primer Googlove robotke prijazno prosili, naj posameznih podstrani ne indeksirajo, in začuda so se tega vsi držali. V svetu, kjer ni nihče upošteval do not track, se je robots.txt tri desetletja zanašal na dejstvo, da so pajki mož beseda. Toda robots.txt počasi, a zanesljivo izgublja svojo vlogo.

Google je v dokumentaciji svoje storitve Google NotebookLM potihoma zapisal, da ne bo upoštevala robots.txt. V utemeljitve piše, da ne gre za klasične pajke, temveč spletne agente, ki delujejo po navodilih uporabnika, ki jih v nekem trenutku sproži. Podobno bo verjetno kmalu veljajo tudi za druge spletne agente. Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1.

A robots.txt, ki se je rodil 1. februarja 1994, ni umrl danes, temveč že prej. Izumil ga je Martijn Koster, čigar strežnik je počepnil pod okvarjenim pajkom Websnarf. Tedanji internet je bil majhna in povezana skupnost, v kateri se je verjelo na besedo. RobotsNotWanted.txt, kot se je datoteka imenovala spočetka, se je zato zanašala na pajke, da bodo razumeli namig, da niso dobrodošli. In so ga. Google, Yahoo, AltaVista in Lycos so stran zapustili, če so v robots.txt našli ustrezna navodila.

Prvi žebelj v krsto mu je zabil Internet Archive, ki je leta 2017 prenehal spoštovati robots.txt. Trdil je, da so nameni in naloge internetnega arhiva pomembnejši in bolj plemeniti od želja skrbnikov strani. Plaz se ni več ustavil, internet pa se je fragmentiral. Cloudflare jih blokira, nekatere strani omogočajo dostop prek plačljivih API, druge so podpisale ekskluzivne pogodbe o dostopu za posamezne agente. OpenAI ni nikoli spoštoval robots.txt, njegovo razmerje pa je 1.700:1. Danes je robots.txt le relikt preteklosti, čeprav je - že globoko v svoji irelevantnosti - dobil celo RFC.


1 komentar

Ales ::

Ta del članka mi je bil nekoliko nerazumljiv: "Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1."

Gre za "Crawl-to-refer ratio" oz. "Ratio of HTML page crawl requests to HTML page referrals by platform."

Se pravi, naj bi šlo za razmerje med tem, koliko obiskovalcev pride na stran preko nekoga (preko iskalnika, recimo) in hkrati koliko ta nekdo vrši iskanj po vsebini strani (na katero bo potem morda nekoč "v zameno" poslal obiskovalca).

Kaže se trend, da LLM-ji uporabnikom sploh ne servirajo povezave na vsebino, temveč vsebino samo. Sploh ne pošiljajo obiskovalcev k virom vsebin.

Zaradi tega se seveda avtorji vsebin sprašujejo, kakšen smisel ima vsebino objavljati, če pa neposrednih obiskovalcev ni oz. jih kmalu praktično ne bo več.

No... da ne govorimo o tem, da se med vsebine in nas še dodatno vrinjajo taki zlonamerni konstrukti, kot je jebeni Cludflare...

Edit: pozabil omeniti, sploh se ne strinjam z ugotovitvijo, da je datoteka robots.txt relikt.

Tukaj se mešata dve stvari, eno je, da LLM-ji praktično ne pošiljajo obiskovalce k virom vsebin, drugo pa je, da ne spoštujejo robots.txt.

Slednje še zdaleč ni tako pogosto, kot bi se zdelo, pa tudi avtorji strani imajo dovolj orodij za to, da robote prisilijo v spoštovanje tega.

Govorim o čisto tehničnih orodjih, ki robota, ki ne bi spoštoval robots.txt, enostavno blokirajo. To je dokaj zlahka izvedljivo.

Zgodovina sprememb…

  • spremenil: Ales ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Po Redditu sme iskati le Google

Oddelek: Novice / Brskalniki
223988 (2228) Lonsarg
»

Google ne najde moje spletne strani

Oddelek: Izdelava spletišč
276420 (5417) Vzdevek
»

izbris strani iz iskalnika najdi.si

Oddelek: Omrežja in internet
92490 (2160) Izak
»

Kadar želite kaj skriti, bodite temeljiti

Oddelek: Novice / Omrežja / internet
72797 (2797) minmax

Več podobnih tem