Cloudflare - Vsako spletišče je imelo v korenskem direktoriju datoteko robots.txt, v kateri so bila navodila za pajke, ki se plazijo po internetu. V njej smo lahko na primer Googlove robotke prijazno prosili, naj posameznih podstrani ne indeksirajo, in začuda so se tega vsi držali. V svetu, kjer ni nihče upošteval do not track, se je robots.txt tri desetletja zanašal na dejstvo, da so pajki mož beseda. Toda robots.txt počasi, a zanesljivo izgublja svojo vlogo.
Google je v dokumentaciji svoje storitve Google NotebookLM potihoma zapisal, da ne bo upoštevala robots.txt. V utemeljitve piše, da ne gre za klasične pajke, temveč spletne agente, ki delujejo po navodilih uporabnika, ki jih v nekem trenutku sproži. Podobno bo verjetno kmalu veljajo tudi za druge spletne agente. Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1.
A robots.txt, ki se je rodil 1. februarja 1994, ni umrl danes, temveč že prej. Izumil ga je Martijn Koster, čigar strežnik je počepnil pod okvarjenim pajkom Websnarf. Tedanji internet je bil majhna in povezana skupnost, v kateri se je verjelo na besedo. RobotsNotWanted.txt, kot se je datoteka imenovala spočetka, se je zato zanašala na pajke, da bodo razumeli namig, da niso dobrodošli. In so ga. Google, Yahoo, AltaVista in Lycos so stran zapustili, če so v robots.txt našli ustrezna navodila.
Prvi žebelj v krsto mu je zabil Internet Archive, ki je leta 2017 prenehal spoštovati robots.txt. Trdil je, da so nameni in naloge internetnega arhiva pomembnejši in bolj plemeniti od želja skrbnikov strani. Plaz se ni več ustavil, internet pa se je fragmentiral. Cloudflare jih blokira, nekatere strani omogočajo dostop prek plačljivih API, druge so podpisale ekskluzivne pogodbe o dostopu za posamezne agente. OpenAI ni nikoli spoštoval robots.txt, njegovo razmerje pa je 1.700:1. Danes je robots.txt le relikt preteklosti, čeprav je - že globoko v svoji irelevantnosti - dobil celo RFC.
Ta del članka mi je bil nekoliko nerazumljiv: "Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1."
Gre za "Crawl-to-refer ratio" oz. "Ratio of HTML page crawl requests to HTML page referrals by platform."
Se pravi, naj bi šlo za razmerje med tem, koliko obiskovalcev pride na stran preko nekoga (preko iskalnika, recimo) in hkrati koliko ta nekdo vrši iskanj po vsebini strani (na katero bo potem morda nekoč "v zameno" poslal obiskovalca).
Kaže se trend, da LLM-ji uporabnikom sploh ne servirajo povezave na vsebino, temveč vsebino samo. Sploh ne pošiljajo obiskovalcev k virom vsebin.
Zaradi tega se seveda avtorji vsebin sprašujejo, kakšen smisel ima vsebino objavljati, če pa neposrednih obiskovalcev ni oz. jih kmalu praktično ne bo več.
No... da ne govorimo o tem, da se med vsebine in nas še dodatno vrinjajo taki zlonamerni konstrukti, kot je jebeni Cludflare...
Edit: pozabil omeniti, sploh se ne strinjam z ugotovitvijo, da je datoteka robots.txt relikt.
Tukaj se mešata dve stvari, eno je, da LLM-ji praktično ne pošiljajo obiskovalce k virom vsebin, drugo pa je, da ne spoštujejo robots.txt.
Slednje še zdaleč ni tako pogosto, kot bi se zdelo, pa tudi avtorji strani imajo dovolj orodij za to, da robote prisilijo v spoštovanje tega.
Govorim o čisto tehničnih orodjih, ki robota, ki ne bi spoštoval robots.txt, enostavno blokirajo. To je dokaj zlahka izvedljivo.
Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).
Komentarji pa nakazujejo, da je nekdo res zapit...
Travel is fatal to prejudice, bigotry, and narrow-mindedness, and many of our
people need it sorely on these accounts. Broad, wholesome, charitable views of
men and things cannot be acquired by vegetating in one little corner of earth.
Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).
Komentarji pa nakazujejo, da je nekdo res zapit...
Zapora torej!? Z bandwithom!?? Sanja se mi ne laj je to!? Generirani bandvit!?? Nasiti tja, kjer ni ljudi, da se ožene te nadležne pajke, ki so se tako razmnožili!?? Sanja se mi ne! Daj, povej po domače, da bomo tudi naliti štajerski troli razumeli!!
Lepa beseda mesta ne najde!?? Kaj zdaj naredit!? Spit še eno flašo, raje enega spohat ali koga užgat!??
Je le dobro da ga je držalo do te mere kolikor se ga je. Zapore bodo težavne za implementirat. Kako zdej ločit kdaj gre za bota? Requesti bodo večinoma leteli z brskalnikov uporabnikov ali drugih njihovih aplikacij z njihovih PCov, in ne z nekega centralnega strežnika/IPja. Agent stringe se pa itak da ponarejat (spet en gentlemanski dogovor :D ).
LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.
Lastniki strani pa veseli, kako veliko obiska imajo po novem.
Sem slišal zgodbo od kolega, katerega foter ima sina s kontakti z nekom v javnem sektorju, ki skrbi za nekaj instanc spletnih aplikacij in pravi, da je tega ogromno. Vsake toliko pride do toliko prometa, da se aplikacija prične sesuvati, skoraj ddos. Ko se to dogaja, pride večina prometa iz azije. V enem primeru je v roku enega tedna po takem incidentu bil objavljen DeepSeek. Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda). Na eni večjih instanc te aplikacije imajo možnost vklopiti bot protection in so se odločili, da bodo blokirali vse, razen slovenije, google in openai.
Sicer rahlo off-topic, a morda tudi ne. Pred kratkim je bila objavljena študija, v kateri presenečeno ugotovijo, kako malo vsebine je potrebno, da zastrupiš LLM. Če se prav spomnim, je bilo dovolj 250 strani (zadetkov), tisočinka procenta celotne vsebine, skoraj ne glede na velikost LLM-ja (vir). Objavljena je bila tudi zgodba, kjer je nek poslovnež na podoben način preko pisanja po reditu (ki baje predstavlja 40% vhodnih podatkov za LLM) namenoma uničil konkurenta.
Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda).
... načeloma ni slabo, da se ljudje izobražujejo, ampak razumem poanto da.
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).
Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete... Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.
Sem slišal zgodbo od kolega, katerega foter ima sina s kontakti z nekom v javnem sektorju, ki skrbi za nekaj instanc spletnih aplikacij in pravi, da je tega ogromno. Vsake toliko pride do toliko prometa, da se aplikacija prične sesuvati, skoraj ddos. Ko se to dogaja, pride večina prometa iz azije. V enem primeru je v roku enega tedna po takem incidentu bil objavljen DeepSeek. Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda). Na eni večjih instanc te aplikacije imajo možnost vklopiti bot protection in so se odločili, da bodo blokirali vse, razen slovenije, google in openai.
Pri stranki sem nekaj takega videl tudi sam. Ogromno CN IP-jev, ki so crawlali vsak produkt po vseh možnih kombinacijah filtrov. Stran je počepnila, ker niso imeli niti dobrega cachinga še toliko huje, nabilo je load v oblake. User-agent je bil kot nek normalen user(!). So se odločili za blokado celotne Kitajske.
Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete... Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.
BRAVO Seljak! :) Za tole si odlikovan kar z ZLATO medaljo gen Maistra!! Čestitke!🤝
A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa
A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa
Verjetno so vsaj do leta 2018, nato so iz svojih dokumentov umaknili izjavo "Don't be evil" (vir).