» »

Nekoč je bil robots.txt

Nekoč je bil robots.txt

Cloudflare - Vsako spletišče je imelo v korenskem direktoriju datoteko robots.txt, v kateri so bila navodila za pajke, ki se plazijo po internetu. V njej smo lahko na primer Googlove robotke prijazno prosili, naj posameznih podstrani ne indeksirajo, in začuda so se tega vsi držali. V svetu, kjer ni nihče upošteval do not track, se je robots.txt tri desetletja zanašal na dejstvo, da so pajki mož beseda. Toda robots.txt počasi, a zanesljivo izgublja svojo vlogo.

Google je v dokumentaciji svoje storitve Google NotebookLM potihoma zapisal, da ne bo upoštevala robots.txt. V utemeljitve piše, da ne gre za klasične pajke, temveč spletne agente, ki delujejo po navodilih uporabnika, ki jih v nekem trenutku sproži. Podobno bo verjetno kmalu veljajo tudi za druge spletne agente. Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1.

A robots.txt, ki se je rodil 1. februarja 1994, ni umrl danes, temveč že prej. Izumil ga je Martijn Koster, čigar strežnik je počepnil pod okvarjenim pajkom Websnarf. Tedanji internet je bil majhna in povezana skupnost, v kateri se je verjelo na besedo. RobotsNotWanted.txt, kot se je datoteka imenovala spočetka, se je zato zanašala na pajke, da bodo razumeli namig, da niso dobrodošli. In so ga. Google, Yahoo, AltaVista in Lycos so stran zapustili, če so v robots.txt našli ustrezna navodila.

Prvi žebelj v krsto mu je zabil Internet Archive, ki je leta 2017 prenehal spoštovati robots.txt. Trdil je, da so nameni in naloge internetnega arhiva pomembnejši in bolj plemeniti od želja skrbnikov strani. Plaz se ni več ustavil, internet pa se je fragmentiral. Cloudflare jih blokira, nekatere strani omogočajo dostop prek plačljivih API, druge so podpisale ekskluzivne pogodbe o dostopu za posamezne agente. OpenAI ni nikoli spoštoval robots.txt, njegovo razmerje pa je 1.700:1. Danes je robots.txt le relikt preteklosti, čeprav je - že globoko v svoji irelevantnosti - dobil celo RFC.


29 komentarjev

Ales ::

Ta del članka mi je bil nekoliko nerazumljiv: "Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1."

Gre za "Crawl-to-refer ratio" oz. "Ratio of HTML page crawl requests to HTML page referrals by platform."

Se pravi, naj bi šlo za razmerje med tem, koliko obiskovalcev pride na stran preko nekoga (preko iskalnika, recimo) in hkrati koliko ta nekdo vrši iskanj po vsebini strani (na katero bo potem morda nekoč "v zameno" poslal obiskovalca).

Kaže se trend, da LLM-ji uporabnikom sploh ne servirajo povezave na vsebino, temveč vsebino samo. Sploh ne pošiljajo obiskovalcev k virom vsebin.

Zaradi tega se seveda avtorji vsebin sprašujejo, kakšen smisel ima vsebino objavljati, če pa neposrednih obiskovalcev ni oz. jih kmalu praktično ne bo več.

No... da ne govorimo o tem, da se med vsebine in nas še dodatno vrinjajo taki zlonamerni konstrukti, kot je jebeni Cludflare...

Edit: pozabil omeniti, sploh se ne strinjam z ugotovitvijo, da je datoteka robots.txt relikt.

Tukaj se mešata dve stvari, eno je, da LLM-ji praktično ne pošiljajo obiskovalce k virom vsebin, drugo pa je, da ne spoštujejo robots.txt.

Slednje še zdaleč ni tako pogosto, kot bi se zdelo, pa tudi avtorji strani imajo dovolj orodij za to, da robote prisilijo v spoštovanje tega.

Govorim o čisto tehničnih orodjih, ki robota, ki ne bi spoštoval robots.txt, enostavno blokirajo. To je dokaj zlahka izvedljivo.

Zgodovina sprememb…

  • spremenil: Ales ()

gen Maister ::

:)):)):))
Menda si čudovit računalničar Aleš, pravijo fantje.
Morda si malo zgrešil poanto članka!?

Boš še enkrat poskusil, ali potrebuješ namig pijanega sds skinhed trola iz Mb!??

Ales78 ::

Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).

Komentarji pa nakazujejo, da je nekdo res zapit...
Travel is fatal to prejudice, bigotry, and narrow-mindedness, and many of our
people need it sorely on these accounts. Broad, wholesome, charitable views of
men and things cannot be acquired by vegetating in one little corner of earth.

Zgodovina sprememb…

  • predlagal izbris: delavec44 ()

c3p0 ::

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.

gen Maister ::

Ales78 je izjavil:

Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).

Komentarji pa nakazujejo, da je nekdo res zapit...


Zapora torej!? Z bandwithom!?? Sanja se mi ne laj je to!? Generirani bandvit!?? Nasiti tja, kjer ni ljudi, da se ožene te nadležne pajke, ki so se tako razmnožili!??
Sanja se mi ne!
Daj, povej po domače, da bomo tudi naliti štajerski troli razumeli!!

Lepa beseda mesta ne najde!?? Kaj zdaj naredit!?
Spit še eno flašo, raje enega spohat ali koga užgat!??

MaliSkovik ::

Je le dobro da ga je držalo do te mere kolikor se ga je.
Zapore bodo težavne za implementirat. Kako zdej ločit kdaj gre za bota?
Requesti bodo večinoma leteli z brskalnikov uporabnikov ali drugih njihovih aplikacij z njihovih PCov, in ne z nekega centralnega strežnika/IPja.
Agent stringe se pa itak da ponarejat (spet en gentlemanski dogovor :D ).

gen Maister ::

c3p0 je izjavil:

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.


Verjetno si mislil takole!??

LLM so požrešni, nevzgojeni in SE hranijo mimo pravil!?

In še neke uporabniške agente skrivajo, ki dajejo lastnikom spletne restavracije občutek, da imajo ogromno prometa!??

Sindrom ::

In točno zaradi teh agentov se po tem na spletnih straneh pojavljajo klovni, ki meni blokirajo dostop do vsebin.
"If privacy is outlawed, only outlaws will have privacy." - Phil Zimmerman

JanBrezov ::

c3p0 je izjavil:

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.

Sem slišal zgodbo od kolega, katerega foter ima sina s kontakti z nekom v javnem sektorju, ki skrbi za nekaj instanc spletnih aplikacij in pravi, da je tega ogromno. Vsake toliko pride do toliko prometa, da se aplikacija prične sesuvati, skoraj ddos. Ko se to dogaja, pride večina prometa iz azije. V enem primeru je v roku enega tedna po takem incidentu bil objavljen DeepSeek. Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda). Na eni večjih instanc te aplikacije imajo možnost vklopiti bot protection in so se odločili, da bodo blokirali vse, razen slovenije, google in openai.

Sicer rahlo off-topic, a morda tudi ne. Pred kratkim je bila objavljena študija, v kateri presenečeno ugotovijo, kako malo vsebine je potrebno, da zastrupiš LLM. Če se prav spomnim, je bilo dovolj 250 strani (zadetkov), tisočinka procenta celotne vsebine, skoraj ne glede na velikost LLM-ja (vir). Objavljena je bila tudi zgodba, kjer je nek poslovnež na podoben način preko pisanja po reditu (ki baje predstavlja 40% vhodnih podatkov za LLM) namenoma uničil konkurenta.

Gregor P ::

JanBrezov je izjavil:

Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda).

... načeloma ni slabo, da se ljudje izobražujejo, ampak razumem poanto da.
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Seljak ::

Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete...
Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.

darkolord ::

Klasični Google, ki "v dobrobit uporabnikov" vedno gre mimo uveljavljenih norm.

c3p0 ::

JanBrezov je izjavil:


Sem slišal zgodbo od kolega, katerega foter ima sina s kontakti z nekom v javnem sektorju, ki skrbi za nekaj instanc spletnih aplikacij in pravi, da je tega ogromno. Vsake toliko pride do toliko prometa, da se aplikacija prične sesuvati, skoraj ddos. Ko se to dogaja, pride večina prometa iz azije. V enem primeru je v roku enega tedna po takem incidentu bil objavljen DeepSeek. Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda). Na eni večjih instanc te aplikacije imajo možnost vklopiti bot protection in so se odločili, da bodo blokirali vse, razen slovenije, google in openai.


Pri stranki sem nekaj takega videl tudi sam. Ogromno CN IP-jev, ki so crawlali vsak produkt po vseh možnih kombinacijah filtrov. Stran je počepnila, ker niso imeli niti dobrega cachinga še toliko huje, nabilo je load v oblake. User-agent je bil kot nek normalen user(!). So se odločili za blokado celotne Kitajske.

gen Maister ::

Seljak je izjavil:

Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete...
Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.


BRAVO Seljak! :)
Za tole si odlikovan kar z ZLATO medaljo gen Maistra!!
Čestitke!🤝

SmeskoSnezak ::

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa
@ Pusti soncu v srce... @

JanBrezov ::

SmeskoSnezak je izjavil:

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa

Verjetno so vsaj do leta 2018, nato so iz svojih dokumentov umaknili izjavo "Don't be evil" (vir).

/s

Seljak ::

SmeskoSnezak je izjavil:

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa


Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.

Ales78 ::

gen Maister je izjavil:

Ales78 je izjavil:

Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).

Komentarji pa nakazujejo, da je nekdo res zapit...


Zapora torej!? Z bandwithom!?? Sanja se mi ne laj je to!? Generirani bandvit!?? Nasiti tja, kjer ni ljudi, da se ožene te nadležne pajke, ki so se tako razmnožili!??
Sanja se mi ne!
Daj, povej po domače, da bomo tudi naliti štajerski troli razumeli!!

Lepa beseda mesta ne najde!?? Kaj zdaj naredit!?
Spit še eno flašo, raje enega spohat ali koga užgat!??


Pa dobro, kdo take cvete inteligence spusti v registracijo? To ni za slo-tech, še za vrtec ni, ni čudno, da postaja slo-tech vedno bolj smrdeči kupček gnoja.

MaliSkovik je izjavil:

Agent stringe se pa itak da ponarejat (spet en gentlemanski dogovor :D ).

Z agent stringi se ukvarjajo šalabajzerji, so bolj prefinjene metode, ki jih šalabajzerji niso sposobni ponarediti, ker jim dlje od httpja intelekt ne seže.
Travel is fatal to prejudice, bigotry, and narrow-mindedness, and many of our
people need it sorely on these accounts. Broad, wholesome, charitable views of
men and things cannot be acquired by vegetating in one little corner of earth.

Zgodovina sprememb…

  • spremenilo: Ales78 ()

garamond ::

Seljak je izjavil:

SmeskoSnezak je izjavil:

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa


Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.
Si že precej dolgo na forumu, samo nisem še nikoli komentiral tvojih komentarjev ... do zdaj.

Prosim nehaj. Z Lune se vidi uporaba LLM-jev.

Vsaj mene osebno ne moti rahla nepravilna uporaba slovnice (kakršnih je večina prispevkov na ST), manjše jezikovne napake in predvsem osebni slog, ki bi ga moral imeti vsak komentar.

V bistvu se izkazujejo človeški prispevki za čedalje bolj dragocene. Od enovrstičnic mtoseva, do dislektičnega črkovanja Lakotnika, do novic McHuscha, za katerega sumim, da še vedno noče uporabljati spell-checkerja (kaj šele LLM-jev za generiranje celotnih novic); da ne omenjam vseh odprtih tem HotBureka.

Alternativa je življenje v fake okolju, v katerem do določene stopnje že tako ali tako živimo, z neznansko povprečnimi, politično sprejemljivimi mnenji. Z jezikovnim slogom, ki ne pove ničesar o podajalcu mnenja. Z vkomponiranim dolgočasjem aka "vse je OK", čeprav v resnici ni, in ko več tisočletno vprašanje kaj je resnica še vedno nima definitivnega odgovora. Mehurček v 2.0.

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...
A parody of extremism is impossible to differentiate from sincere extremism.

Ales78 ::

garamond je izjavil:

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...


Seveda, saj LLMji ne bodo pomagali nikomur nadpovprečnemu. Samo podpovprečni se bodo lahko kitili s tujim znanjem, ki ga sami ne premorejo. Zato pa je tako zasvajajoče za nekatere, kar naenkrat so lahko "pametni", brez, da bi bili pametni. Kaj si lahko lepšega želiš v svetu egoizma in narcisizma?

Glede starosti nickov se pa ne sekiraj preveč, nekje med 2002 in 2004 je nekdo skreiral tone računov, s katerih zdaj zganja SDSovo propagando. Dejansko je star račun bolj sumljiv kot nov.
Travel is fatal to prejudice, bigotry, and narrow-mindedness, and many of our
people need it sorely on these accounts. Broad, wholesome, charitable views of
men and things cannot be acquired by vegetating in one little corner of earth.

Zgodovina sprememb…

  • spremenilo: Ales78 ()

Seljak ::

garamond je izjavil:

Seljak je izjavil:

SmeskoSnezak je izjavil:

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa


Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.
Si že precej dolgo na forumu, samo nisem še nikoli komentiral tvojih komentarjev ... do zdaj.

Prosim nehaj. Z Lune se vidi uporaba LLM-jev.

Vsaj mene osebno ne moti rahla nepravilna uporaba slovnice (kakršnih je večina prispevkov na ST), manjše jezikovne napake in predvsem osebni slog, ki bi ga moral imeti vsak komentar.

V bistvu se izkazujejo človeški prispevki za čedalje bolj dragocene. Od enovrstičnic mtoseva, do dislektičnega črkovanja Lakotnika, do novic McHuscha, za katerega sumim, da še vedno noče uporabljati spell-checkerja (kaj šele LLM-jev za generiranje celotnih novic); da ne omenjam vseh odprtih tem HotBureka.

Alternativa je življenje v fake okolju, v katerem do določene stopnje že tako ali tako živimo, z neznansko povprečnimi, politično sprejemljivimi mnenji. Z jezikovnim slogom, ki ne pove ničesar o podajalcu mnenja. Z vkomponiranim dolgočasjem aka "vse je OK", čeprav v resnici ni, in ko več tisočletno vprašanje kaj je resnica še vedno nima definitivnega odgovora. Mehurček v 2.0.

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...


Tole z “vidi se z Lune, da je LLM” je res kliše. Orodje ne napiše misli namesto človeka – napiše jo človek, ki zna orodje uporabiti. Če nekdo zna svojo idejo ubesediti z malo pomoči, to ne pomeni, da je vse “fake”. Lažje je kričati o avtentičnosti kot pa dejansko povedati nekaj tehtnega. Avtentičnost ni v slovničnih napakah, ampak v tem, ali imaš kaj povedati.

Ales78 je izjavil:

garamond je izjavil:

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...


Seveda, saj LLMji ne bodo pomagali nikomur nadpovprečnemu. Samo podpovprečni se bodo lahko kitili s tujim znanjem, ki ga sami ne premorejo. Zato pa je tako zasvajajoče za nekatere, kar naenkrat so lahko "pametni", brez, da bi bili pametni. Kaj si lahko lepšega želiš v svetu egoizma in narcisizma?

Glede starosti nickov se pa ne sekiraj preveč, nekje med 2002 in 2004 je nekdo skreiral tone računov, s katerih zdaj zganja SDSovo propagando. Dejansko je star račun bolj sumljiv kot nov.


To je klasičen elitistični refleks na novo tehnologijo. Enako so govorili o kalkulatorjih, Wikipediji in IDE-jih. LLM ne naredi nikogar “pametnega”, ampak skrajša pot med idejo in izrazom — tisti, ki nima vsebine, je ne bo imel niti z modelom. Orodje ne ustvarja znanja, omogoča pa, da ga kdo končno zna artikulirati. In ravno to je nekaterim očitno težje sprejeti kot sam obstoj umetne inteligence.
Obdržimo zlato nit trenutne tematike ;)

Zgodovina sprememb…

  • spremenilo: Seljak ()

Squirrel ::

Seljak je izjavil:


Tole z “vidi se z Lune, da je LLM” je res kliše. Orodje ne napiše misli namesto človeka – napiše jo človek, ki zna orodje uporabiti. Če nekdo zna svojo idejo ubesediti z malo pomoči, to ne pomeni, da je vse “fake”. Lažje je kričati o avtentičnosti kot pa dejansko povedati nekaj tehtnega. Avtentičnost ni v slovničnih napakah, ampak v tem, ali imaš kaj povedati.


Tole pa ni samo proofread check, ampak dejanski ChatGPT-made sestavek :)
A si skopiral človekov tekst in od AIja zahteval, da malce pojamra nazaj? Tomlin je počel isto. Še nekaj temu zgoraj podobnih odgovorov je prilimal na forum. A lahko odjebeš s tem? :)

Zgodovina sprememb…

  • predlagalo izbris: Seljak ()

Seljak ::

Ali je danes prepovedano pisati "pravilno" slovnično? Sem jaz kriv, ker sem se rodil v času, ko smo morali pisati v slovenščini, pravilno postavljati ločila?
Z lune se vidi, da so tukaj na Slo-tech-u še samo "pedigrejčki", ki si ne upajo strokovno podati komentarja, in prenesti kritike...
A vas na faksu niso učili tega? Nas so v 90'.

Utk ::

Dej ne bluzi. Btw, vsak lahko pogleda tvoje stare prispevke in takoj vidi da si ful of crap.

Squirrel ::

To je Tomlinov alter ego. Majke mi, da je! Čisto 100% identično. :D

In ne, tole "Lažje je kričati o avtentičnosti kot pa dejansko povedati nekaj tehtnega. Avtentičnost ni v slovničnih napakah, ampak v tem, ali imaš kaj povedati" ti je kar lepo ChatGPT spacal skupaj.

WhiteAngel ::

robots.txt je out. Zdaj je llms.txt the next big thing 8-)

Ales ::

Seljak je izjavil:

Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete...
Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.

To ni nič novega, robots.txt se selektivno spoštuje/ne spoštuje že od kar obstaja.

Splošni moralni bankrot spleta se je zgodil že zdavnaj, z vidika robots.txt in vsega ostalega. Zlata leta interneta so že tako davno mimo, da se jih še jaz le še z nostalgijo megleno spominjam.

Mogoče mi zato ni bilo čisto jasno, kam meri ta članek, ker je desetletja za realnostjo.

Crawlerji npr. že desetletja sesuvajo strani, če server admin nima pojma kaj počne (da samo omenim nekaj robots.txt primernega).

Je pa res, da se zauganje informacij pospešuje in postaja vse bolj in bolj očitno in neprikrito s strani multinacionalk in njihovih tržnih modelov. LLM-ji so pač nenasitni. Pa je bil Googlov projekt skeniranja celotnega človeškega nabora knjig kaj manj nenasiten? No, imamo pa zato vsaj Anna's archive...

Wake up call za rajo, kot ponavadi, prihaja nekje pozno popoldne.

smihael ::

c3p0 je izjavil:

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.


Smo le korak stran od pobud: User agent mora vsebovati unikatni kljuc. Bye bye zasebnost.

HotBurek ::

Jst blokiram te LLM/AI bot-e z preverjanjem user agent-a.

Zaenkarat trenutno najdem tale dva: openai in claudebot

In če je to notri, je response HTTP 403.

Druga opcija je, da dropneš cel subnet iz kjer prihajajo requesti (openai ima tako vse na MS subnet-ih).

In ker ta druga opcija obstaja in ni težka za izvedbo, ne zastopim, zakaj en folk tolk jamra, da se ne da, da je težko... Če ni. Dobiš request od openai, pogledaš ip, daš v whois in najdeš subnet, skopiraš ta subnet v firewal na drop pozicijo, restart firewall service. Job done.

Pred tem, ko je bila zadeva "odprta", bi pa težko rekel, da je tega bilo toliko, da server dol pade.

Se je verjetno treba vprašat, kaj je na serverju narobe, da ne more požret 1 request na sekundo.

Moje ugibanje je, da je "kriv"-a predvsem lenoba in potreba po "hitrosti izdelave" (štancanje), posledično je "rešitev" izvedena v obliki požrešnih in procesorsko intenzivnih framework-ov, 20 javaskript, in ostalih smeti. Seveda, s ciljem da se na koncu prikaže en pejdž z nekaj več, kot "hello world" teksta in kakšno sliko.

Pa polno izgovorov, da mora imet website teh 20 skript, plugin-ov, and what not, da se pravilno prikaže in dela.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

  • spremenilo: HotBurek ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Nekoč je bil robots.txt

Oddelek: Novice / Omrežja / internet
292304 (89) HotBurek
»

Po Redditu sme iskati le Google

Oddelek: Novice / Brskalniki
224025 (2265) Lonsarg
»

Google ne najde moje spletne strani

Oddelek: Izdelava spletišč
276447 (5444) Vzdevek
»

izbris strani iz iskalnika najdi.si

Oddelek: Omrežja in internet
92495 (2165) Izak

Več podobnih tem