Nekoč je bil robots.txt @ Slo-Tech

Novice » Omrežja / internet »
Nekoč je bil robots.txt

Nekoč je bil robots.txt

Matej Huš :: 15. okt 2025 ob 22:25
Omrežja / internet

Cloudflare - Vsako spletišče je imelo v korenskem direktoriju datoteko robots.txt, v kateri so bila navodila za pajke, ki se plazijo po internetu. V njej smo lahko na primer Googlove robotke prijazno prosili, naj posameznih podstrani ne indeksirajo, in začuda so se tega vsi držali. V svetu, kjer ni nihče upošteval do not track, se je robots.txt tri desetletja zanašal na dejstvo, da so pajki mož beseda. Toda robots.txt počasi, a zanesljivo izgublja svojo vlogo.

Google je v dokumentaciji svoje storitve Google NotebookLM potihoma zapisal, da ne bo upoštevala robots.txt. V utemeljitve piše, da ne gre za klasične pajke, temveč spletne agente, ki delujejo po navodilih uporabnika, ki jih v nekem trenutku sproži. Podobno bo verjetno kmalu veljajo tudi za druge spletne agente. Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1.

A robots.txt, ki se je rodil 1. februarja 1994, ni umrl danes, temveč že prej. Izumil ga je Martijn Koster, čigar strežnik je počepnil pod okvarjenim pajkom Websnarf. Tedanji internet je bil majhna in povezana skupnost, v kateri se je verjelo na besedo. RobotsNotWanted.txt, kot se je datoteka imenovala spočetka, se je zato zanašala na pajke, da bodo razumeli namig, da niso dobrodošli. In so ga. Google, Yahoo, AltaVista in Lycos so stran zapustili, če so v robots.txt našli ustrezna navodila.

Prvi žebelj v krsto mu je zabil Internet Archive, ki je leta 2017 prenehal spoštovati robots.txt. Trdil je, da so nameni in naloge internetnega arhiva pomembnejši in bolj plemeniti od želja skrbnikov strani. Plaz se ni več ustavil, internet pa se je fragmentiral. Cloudflare jih blokira, nekatere strani omogočajo dostop prek plačljivih API, druge so podpisale ekskluzivne pogodbe o dostopu za posamezne agente. OpenAI ni nikoli spoštoval robots.txt, njegovo razmerje pa je 1.700:1. Danes je robots.txt le relikt preteklosti, čeprav je - že globoko v svoji irelevantnosti - dobil celo RFC.

37 komentarjev

Ales :: 15. okt 2025, 23:13

Ta del članka mi je bil nekoliko nerazumljiv: "Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1."

Gre za "Crawl-to-refer ratio" oz. "Ratio of HTML page crawl requests to HTML page referrals by platform."

Se pravi, naj bi šlo za razmerje med tem, koliko obiskovalcev pride na stran preko nekoga (preko iskalnika, recimo) in hkrati koliko ta nekdo vrši iskanj po vsebini strani (na katero bo potem morda nekoč "v zameno" poslal obiskovalca).

Kaže se trend, da LLM-ji uporabnikom sploh ne servirajo povezave na vsebino, temveč vsebino samo. Sploh ne pošiljajo obiskovalcev k virom vsebin.

Zaradi tega se seveda avtorji vsebin sprašujejo, kakšen smisel ima vsebino objavljati, če pa neposrednih obiskovalcev ni oz. jih kmalu praktično ne bo več.

No... da ne govorimo o tem, da se med vsebine in nas še dodatno vrinjajo taki zlonamerni konstrukti, kot je jebeni Cludflare...

Edit: pozabil omeniti, sploh se ne strinjam z ugotovitvijo, da je datoteka robots.txt relikt.

Tukaj se mešata dve stvari, eno je, da LLM-ji praktično ne pošiljajo obiskovalce k virom vsebin, drugo pa je, da ne spoštujejo robots.txt.

Slednje še zdaleč ni tako pogosto, kot bi se zdelo, pa tudi avtorji strani imajo dovolj orodij za to, da robote prisilijo v spoštovanje tega.

Govorim o čisto tehničnih orodjih, ki robota, ki ne bi spoštoval robots.txt, enostavno blokirajo. To je dokaj zlahka izvedljivo.

Zgodovina sprememb…

spremenil: Ales (15. okt 2025 ob 23:19)

gen Maister :: 16. okt 2025, 06:35

Menda si čudovit računalničar Aleš, pravijo fantje.
Morda si malo zgrešil poanto članka!?

Boš še enkrat poskusil, ali potrebuješ namig pijanega sds skinhed trola iz Mb!??

Ales78 :: 16. okt 2025, 07:21

Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).

Komentarji pa nakazujejo, da je nekdo res zapit...

Vas zanima, zakaj zares plačujete visoke davke na plačo?
Ne, ni javni sektor, subvencionirate kapital:
https://slo-tech.com/forum/t801136/p8630739#p8630739

Zgodovina sprememb…

predlagal izbris: delavec44 (16. okt 2025 ob 14:00)

c3p0 :: 16. okt 2025, 07:52

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.

gen Maister :: 16. okt 2025, 08:13

Ales78 je 16. okt 2025 ob 07:21 izjavil:

Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).

Komentarji pa nakazujejo, da je nekdo res zapit...

Zapora torej!? Z bandwithom!?? Sanja se mi ne laj je to!? Generirani bandvit!?? Nasiti tja, kjer ni ljudi, da se ožene te nadležne pajke, ki so se tako razmnožili!??
Sanja se mi ne!
Daj, povej po domače, da bomo tudi naliti štajerski troli razumeli!!

Lepa beseda mesta ne najde!?? Kaj zdaj naredit!?
Spit še eno flašo, raje enega spohat ali koga užgat!??

MaliSkovik :: 16. okt 2025, 08:35

Je le dobro da ga je držalo do te mere kolikor se ga je.
Zapore bodo težavne za implementirat. Kako zdej ločit kdaj gre za bota?
Requesti bodo večinoma leteli z brskalnikov uporabnikov ali drugih njihovih aplikacij z njihovih PCov, in ne z nekega centralnega strežnika/IPja.
Agent stringe se pa itak da ponarejat (spet en gentlemanski dogovor :D ).

gen Maister :: 16. okt 2025, 08:42

c3p0 je 16. okt 2025 ob 07:52 izjavil:

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.

Verjetno si mislil takole!??

LLM so požrešni, nevzgojeni in SE hranijo mimo pravil!?

In še neke uporabniške agente skrivajo, ki dajejo lastnikom spletne restavracije občutek, da imajo ogromno prometa!??

Sindrom :: 16. okt 2025, 08:51

In točno zaradi teh agentov se po tem na spletnih straneh pojavljajo klovni, ki meni blokirajo dostop do vsebin.

"If privacy is outlawed, only outlaws will have privacy." - Phil Zimmerman

JanBrezov :: 16. okt 2025, 08:59

c3p0 je 16. okt 2025 ob 07:52 izjavil:

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.

Sem slišal zgodbo od kolega, katerega foter ima sina s kontakti z nekom v javnem sektorju, ki skrbi za nekaj instanc spletnih aplikacij in pravi, da je tega ogromno. Vsake toliko pride do toliko prometa, da se aplikacija prične sesuvati, skoraj ddos. Ko se to dogaja, pride večina prometa iz azije. V enem primeru je v roku enega tedna po takem incidentu bil objavljen DeepSeek. Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda). Na eni večjih instanc te aplikacije imajo možnost vklopiti bot protection in so se odločili, da bodo blokirali vse, razen slovenije, google in openai.

Sicer rahlo off-topic, a morda tudi ne. Pred kratkim je bila objavljena študija, v kateri presenečeno ugotovijo, kako malo vsebine je potrebno, da zastrupiš LLM. Če se prav spomnim, je bilo dovolj 250 strani (zadetkov), tisočinka procenta celotne vsebine, skoraj ne glede na velikost LLM-ja (vir). Objavljena je bila tudi zgodba, kjer je nek poslovnež na podoben način preko pisanja po reditu (ki baje predstavlja 40% vhodnih podatkov za LLM) namenoma uničil konkurenta.

Gregor P :: 16. okt 2025, 09:17

JanBrezov je 16. okt 2025 ob 08:59 izjavil:

Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda).

... načeloma ni slabo, da se ljudje izobražujejo, ampak razumem poanto da.

The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Seljak :: 16. okt 2025, 10:33

Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete...
Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.

darkolord :: 16. okt 2025, 11:02

Klasični Google, ki "v dobrobit uporabnikov" vedno gre mimo uveljavljenih norm.

c3p0 :: 16. okt 2025, 12:15

JanBrezov je 16. okt 2025 ob 08:59 izjavil:

Sem slišal zgodbo od kolega, katerega foter ima sina s kontakti z nekom v javnem sektorju, ki skrbi za nekaj instanc spletnih aplikacij in pravi, da je tega ogromno. Vsake toliko pride do toliko prometa, da se aplikacija prične sesuvati, skoraj ddos. Ko se to dogaja, pride večina prometa iz azije. V enem primeru je v roku enega tedna po takem incidentu bil objavljen DeepSeek. Zdaj pa vsak, ki ima 5 minut časa in več kot 32gb rama gradi svoj LLM, parsa ves svet in seveda so problemi (karikiram seveda). Na eni večjih instanc te aplikacije imajo možnost vklopiti bot protection in so se odločili, da bodo blokirali vse, razen slovenije, google in openai.

Pri stranki sem nekaj takega videl tudi sam. Ogromno CN IP-jev, ki so crawlali vsak produkt po vseh možnih kombinacijah filtrov. Stran je počepnila, ker niso imeli niti dobrega cachinga še toliko huje, nabilo je load v oblake. User-agent je bil kot nek normalen user(!). So se odločili za blokado celotne Kitajske.

gen Maister :: 16. okt 2025, 12:45

Seljak je 16. okt 2025 ob 10:33 izjavil:

Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete...
Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.

BRAVO Seljak! :)
Za tole si odlikovan kar z ZLATO medaljo gen Maistra!!
Čestitke!🤝

SmeskoSnezak :: 16. okt 2025, 14:28

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa

@ Pusti soncu v srce... @

JanBrezov :: 16. okt 2025, 15:01

SmeskoSnezak je 16. okt 2025 ob 14:28 izjavil:

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa

Verjetno so vsaj do leta 2018, nato so iz svojih dokumentov umaknili izjavo "Don't be evil" (vir).

/s

Seljak :: 16. okt 2025, 18:23

SmeskoSnezak je 16. okt 2025 ob 14:28 izjavil:

A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa

Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.

Ales78 :: 16. okt 2025, 19:10

gen Maister je 16. okt 2025 ob 08:13 izjavil:

Ales78 je 16. okt 2025 ob 07:21 izjavil:
Celoten članek samo dokazuje, da nič kar deluje na gentelmenskem sporazumu, ne bo delovalo in je edini način, da se zadeve lotiš z dejansko zaporo (ali začneš nasuvat pajkom kupe generiranega teksta, če zaidejo tja, kamor človek ne, kar te stane malo bandwidtha, ampak je še vedno moj priljubljen način).

Komentarji pa nakazujejo, da je nekdo res zapit...

Zapora torej!? Z bandwithom!?? Sanja se mi ne laj je to!? Generirani bandvit!?? Nasiti tja, kjer ni ljudi, da se ožene te nadležne pajke, ki so se tako razmnožili!??
Sanja se mi ne!
Daj, povej po domače, da bomo tudi naliti štajerski troli razumeli!!

Lepa beseda mesta ne najde!?? Kaj zdaj naredit!?
Spit še eno flašo, raje enega spohat ali koga užgat!??

Pa dobro, kdo take cvete inteligence spusti v registracijo? To ni za slo-tech, še za vrtec ni, ni čudno, da postaja slo-tech vedno bolj smrdeči kupček gnoja.

MaliSkovik je 16. okt 2025 ob 08:35 izjavil:

Agent stringe se pa itak da ponarejat (spet en gentlemanski dogovor :D ).

Z agent stringi se ukvarjajo šalabajzerji, so bolj prefinjene metode, ki jih šalabajzerji niso sposobni ponarediti, ker jim dlje od httpja intelekt ne seže.

Vas zanima, zakaj zares plačujete visoke davke na plačo?
Ne, ni javni sektor, subvencionirate kapital:
https://slo-tech.com/forum/t801136/p8630739#p8630739

Zgodovina sprememb…

spremenilo: Ales78 (16. okt 2025 ob 19:14)

garamond :: 16. okt 2025, 19:27

Seljak je 16. okt 2025 ob 18:23 izjavil:

SmeskoSnezak je 16. okt 2025 ob 14:28 izjavil:
A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa

Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.

Si že precej dolgo na forumu, samo nisem še nikoli komentiral tvojih komentarjev ... do zdaj.

Prosim nehaj. Z Lune se vidi uporaba LLM-jev.

Vsaj mene osebno ne moti rahla nepravilna uporaba slovnice (kakršnih je večina prispevkov na ST), manjše jezikovne napake in predvsem osebni slog, ki bi ga moral imeti vsak komentar.

V bistvu se izkazujejo človeški prispevki za čedalje bolj dragocene. Od enovrstičnic mtoseva, do dislektičnega črkovanja Lakotnika, do novic McHuscha, za katerega sumim, da še vedno noče uporabljati spell-checkerja (kaj šele LLM-jev za generiranje celotnih novic); da ne omenjam vseh odprtih tem HotBureka.

Alternativa je življenje v fake okolju, v katerem do določene stopnje že tako ali tako živimo, z neznansko povprečnimi, politično sprejemljivimi mnenji. Z jezikovnim slogom, ki ne pove ničesar o podajalcu mnenja. Z vkomponiranim dolgočasjem aka "vse je OK", čeprav v resnici ni, in ko več tisočletno vprašanje kaj je resnica še vedno nima definitivnega odgovora. Mehurček v 2.0.

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...

A parody of extremism is impossible to differentiate from sincere extremism.

Ales78 :: 16. okt 2025, 19:37

garamond je 16. okt 2025 ob 19:27 izjavil:

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...

Seveda, saj LLMji ne bodo pomagali nikomur nadpovprečnemu. Samo podpovprečni se bodo lahko kitili s tujim znanjem, ki ga sami ne premorejo. Zato pa je tako zasvajajoče za nekatere, kar naenkrat so lahko "pametni", brez, da bi bili pametni. Kaj si lahko lepšega želiš v svetu egoizma in narcisizma?

Glede starosti nickov se pa ne sekiraj preveč, nekje med 2002 in 2004 je nekdo skreiral tone računov, s katerih zdaj zganja SDSovo propagando. Dejansko je star račun bolj sumljiv kot nov.

Vas zanima, zakaj zares plačujete visoke davke na plačo?
Ne, ni javni sektor, subvencionirate kapital:
https://slo-tech.com/forum/t801136/p8630739#p8630739

Zgodovina sprememb…

spremenilo: Ales78 (16. okt 2025 ob 19:40)

Seljak :: 16. okt 2025, 20:43

garamond je 16. okt 2025 ob 19:27 izjavil:

Seljak je 16. okt 2025 ob 18:23 izjavil:
SmeskoSnezak je 16. okt 2025 ob 14:28 izjavil:
A so "korporacije" tipa googl sploh upostevale bilokaj zadnjih deset let? Zdi se da sploh ne... posebej z vsemi prigodami, ki se znajdejo na spletu od ljudi ki so odsli zaradi maltretiranja (same korporacije). LP, Smeeskaa

Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.
Si že precej dolgo na forumu, samo nisem še nikoli komentiral tvojih komentarjev ... do zdaj.

Prosim nehaj. Z Lune se vidi uporaba LLM-jev.

Vsaj mene osebno ne moti rahla nepravilna uporaba slovnice (kakršnih je večina prispevkov na ST), manjše jezikovne napake in predvsem osebni slog, ki bi ga moral imeti vsak komentar.

V bistvu se izkazujejo človeški prispevki za čedalje bolj dragocene. Od enovrstičnic mtoseva, do dislektičnega črkovanja Lakotnika, do novic McHuscha, za katerega sumim, da še vedno noče uporabljati spell-checkerja (kaj šele LLM-jev za generiranje celotnih novic); da ne omenjam vseh odprtih tem HotBureka.

Alternativa je življenje v fake okolju, v katerem do določene stopnje že tako ali tako živimo, z neznansko povprečnimi, politično sprejemljivimi mnenji. Z jezikovnim slogom, ki ne pove ničesar o podajalcu mnenja. Z vkomponiranim dolgočasjem aka "vse je OK", čeprav v resnici ni, in ko več tisočletno vprašanje kaj je resnica še vedno nima definitivnega odgovora. Mehurček v 2.0.

Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...

Tole z “vidi se z Lune, da je LLM” je res kliše. Orodje ne napiše misli namesto človeka – napiše jo človek, ki zna orodje uporabiti. Če nekdo zna svojo idejo ubesediti z malo pomoči, to ne pomeni, da je vse “fake”. Lažje je kričati o avtentičnosti kot pa dejansko povedati nekaj tehtnega. Avtentičnost ni v slovničnih napakah, ampak v tem, ali imaš kaj povedati.

Ales78 je 16. okt 2025 ob 19:37 izjavil:

garamond je 16. okt 2025 ob 19:27 izjavil:
Še vedno me moti tema Evropska unija: uspehi, padci, prihodnost. Sem prepričan, da je celo sam naslov njen avtor skopiral iz predloga LLM-ja...

Seveda, saj LLMji ne bodo pomagali nikomur nadpovprečnemu. Samo podpovprečni se bodo lahko kitili s tujim znanjem, ki ga sami ne premorejo. Zato pa je tako zasvajajoče za nekatere, kar naenkrat so lahko "pametni", brez, da bi bili pametni. Kaj si lahko lepšega želiš v svetu egoizma in narcisizma?

Glede starosti nickov se pa ne sekiraj preveč, nekje med 2002 in 2004 je nekdo skreiral tone računov, s katerih zdaj zganja SDSovo propagando. Dejansko je star račun bolj sumljiv kot nov.

To je klasičen elitistični refleks na novo tehnologijo. Enako so govorili o kalkulatorjih, Wikipediji in IDE-jih. LLM ne naredi nikogar “pametnega”, ampak skrajša pot med idejo in izrazom — tisti, ki nima vsebine, je ne bo imel niti z modelom. Orodje ne ustvarja znanja, omogoča pa, da ga kdo končno zna artikulirati. In ravno to je nekaterim očitno težje sprejeti kot sam obstoj umetne inteligence.
Obdržimo zlato nit trenutne tematike ;)

Zgodovina sprememb…

spremenilo: Seljak (16. okt 2025 ob 20:49)

Squirrel :: 16. okt 2025, 20:55

Seljak je 16. okt 2025 ob 20:43 izjavil:

Tole z “vidi se z Lune, da je LLM” je res kliše. Orodje ne napiše misli namesto človeka – napiše jo človek, ki zna orodje uporabiti. Če nekdo zna svojo idejo ubesediti z malo pomoči, to ne pomeni, da je vse “fake”. Lažje je kričati o avtentičnosti kot pa dejansko povedati nekaj tehtnega. Avtentičnost ni v slovničnih napakah, ampak v tem, ali imaš kaj povedati.

Tole pa ni samo proofread check, ampak dejanski ChatGPT-made sestavek :)
A si skopiral človekov tekst in od AIja zahteval, da malce pojamra nazaj? Tomlin je počel isto. Še nekaj temu zgoraj podobnih odgovorov je prilimal na forum. A lahko odjebeš s tem? :)

Zgodovina sprememb…

predlagalo izbris: Seljak (16. okt 2025 ob 21:11)

Seljak :: 16. okt 2025, 21:11

Ali je danes prepovedano pisati "pravilno" slovnično? Sem jaz kriv, ker sem se rodil v času, ko smo morali pisati v slovenščini, pravilno postavljati ločila?
Z lune se vidi, da so tukaj na Slo-tech-u še samo "pedigrejčki", ki si ne upajo strokovno podati komentarja, in prenesti kritike...
A vas na faksu niso učili tega? Nas so v 90'.

Utk :: 16. okt 2025, 21:15

Dej ne bluzi. Btw, vsak lahko pogleda tvoje stare prispevke in takoj vidi da si ful of crap.

Squirrel :: 16. okt 2025, 21:34

To je Tomlinov alter ego. Majke mi, da je! Čisto 100% identično.

In ne, tole "Lažje je kričati o avtentičnosti kot pa dejansko povedati nekaj tehtnega. Avtentičnost ni v slovničnih napakah, ampak v tem, ali imaš kaj povedati" ti je kar lepo ChatGPT spacal skupaj.

WhiteAngel :: 17. okt 2025, 00:58

robots.txt je out. Zdaj je llms.txt the next big thing 8-)

Ales :: 17. okt 2025, 01:13

Seljak je 16. okt 2025 ob 10:33 izjavil:

Pa še moje mnenje o robots.txt, ker vidim, da nekateri ne razumete...
Smrt robots.txt ni tehnični, ampak moralni bankrot spleta. Trideset let je deloval zgolj zato, ker so se razvijalci držali dogovorov brez prisile - kar je danes očitno iluzija. Ko Google in drugi ignorirajo robots.txt z izgovorom, da njihovi agenti "niso pajki", to ni tehnološka nuja, temveč odločitev, da se pravila upoštevajo le, ko ustrezajo interesom korporacij. Internet brez zaupanja postaja prostor zaprtih API-jev, plačljivih vrat in digitalnih ograj - natančno tisto, kar je robots.txt skušal preprečiti.

To ni nič novega, robots.txt se selektivno spoštuje/ne spoštuje že od kar obstaja.

Splošni moralni bankrot spleta se je zgodil že zdavnaj, z vidika robots.txt in vsega ostalega. Zlata leta interneta so že tako davno mimo, da se jih še jaz le še z nostalgijo megleno spominjam.

Mogoče mi zato ni bilo čisto jasno, kam meri ta članek, ker je desetletja za realnostjo.

Crawlerji npr. že desetletja sesuvajo strani, če server admin nima pojma kaj počne (da samo omenim nekaj robots.txt primernega).

Je pa res, da se zauganje informacij pospešuje in postaja vse bolj in bolj očitno in neprikrito s strani multinacionalk in njihovih tržnih modelov. LLM-ji so pač nenasitni. Pa je bil Googlov projekt skeniranja celotnega človeškega nabora knjig kaj manj nenasiten? No, imamo pa zato vsaj Anna's archive...

Wake up call za rajo, kot ponavadi, prihaja nekje pozno popoldne.

smihael :: 17. okt 2025, 01:53

c3p0 je 16. okt 2025 ob 07:52 izjavil:

LLM-ji so lačni in jih hranijo mimo pravil. Se ne bi čudil, če skrivajo tudi user-agent.

Lastniki strani pa veseli, kako veliko obiska imajo po novem.

Smo le korak stran od pobud: User agent mora vsebovati unikatni kljuc. Bye bye zasebnost.

HotBurek :: 17. okt 2025, 02:03

Jst blokiram te LLM/AI bot-e z preverjanjem user agent-a.

Zaenkarat trenutno najdem tale dva: openai in claudebot

In če je to notri, je response HTTP 403.

Druga opcija je, da dropneš cel subnet iz kjer prihajajo requesti (openai ima tako vse na MS subnet-ih).

In ker ta druga opcija obstaja in ni težka za izvedbo, ne zastopim, zakaj en folk tolk jamra, da se ne da, da je težko... Če ni. Dobiš request od openai, pogledaš ip, daš v whois in najdeš subnet, skopiraš ta subnet v firewal na drop pozicijo, restart firewall service. Job done.

Pred tem, ko je bila zadeva "odprta", bi pa težko rekel, da je tega bilo toliko, da server dol pade.

Se je verjetno treba vprašat, kaj je na serverju narobe, da ne more požret 1 request na sekundo.

Moje ugibanje je, da je "kriv"-a predvsem lenoba in potreba po "hitrosti izdelave" (štancanje), posledično je "rešitev" izvedena v obliki požrešnih in procesorsko intenzivnih framework-ov, 20 javaskript, in ostalih smeti. Seveda, s ciljem da se na koncu prikaže en pejdž z nekaj več, kot "hello world" teksta in kakšno sliko.

Pa polno izgovorov, da mora imet website teh 20 skript, plugin-ov, and what not, da se pravilno prikaže in dela.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (17. okt 2025 ob 02:10)

Ales78 :: 17. okt 2025, 07:47

HotBurek je 17. okt 2025 ob 02:03 izjavil:

Jst blokiram te LLM/AI bot-e z preverjanjem user agent-a.

Premalo, user agent je samo text v headerju requesta in zamenjati ga, je trivialno. Kar počnes polovi samo prijazne crawlerje.

Vas zanima, zakaj zares plačujete visoke davke na plačo?
Ne, ni javni sektor, subvencionirate kapital:
https://slo-tech.com/forum/t801136/p8630739#p8630739

Zgodovina sprememb…

spremenilo: Ales78 (17. okt 2025 ob 07:49)

Ales78 :: 17. okt 2025, 07:54

Seljak je 16. okt 2025 ob 20:43 izjavil:

To je klasičen elitistični refleks na novo tehnologijo. Enako so govorili o kalkulatorjih, Wikipediji in IDE-jih. LLM ne naredi nikogar “pametnega”, ampak skrajša pot med idejo in izrazom — tisti, ki nima vsebine, je ne bo imel niti z modelom. Orodje ne ustvarja znanja, omogoča pa, da ga kdo končno zna artikulirati. In ravno to je nekaterim očitno težje sprejeti kot sam obstoj umetne inteligence.
Obdržimo zlato nit trenutne tematike ;)

Orodja vsebujejo znanje, ki ga sam nimas. Ergo, se lahko delas pametnega, kar je jasno vidno po celem internetu.

Umetna inteligenca ne obstaja. Samo marketing je nalasc napacno poimenoval LLMje, da bi jih bolje prodajal in scasoma bo to tudi tebi jasno.

Ker "AI" ni dovolj, ce nimas nic v glavi. Lahko pa se z njim pametnega delas.

Vas zanima, zakaj zares plačujete visoke davke na plačo?
Ne, ni javni sektor, subvencionirate kapital:
https://slo-tech.com/forum/t801136/p8630739#p8630739

Zgodovina sprememb…

spremenilo: Ales78 (17. okt 2025 ob 07:57)

JanBrezov :: 17. okt 2025, 08:27

Ales78 je 17. okt 2025 ob 07:54 izjavil:

Ker "AI" ni dovolj, ce nimas nic v glavi. Lahko pa se z njim pametnega delas.

Saj temu je AI ravno namenjen, ali ne? Nekaj sicer rabiš v glavi, da lahko uporabljaš AI smiselno, a ko imaš v glavi dovolj, ostalo naredi AI.

Je pa dobro vprašanje, kaj je uporabnik ala Seljak v tej zgodbi? Neumen uporabnik, ki se dela pametnega z AI ali zgolj proxy za AI, posredovalec prompta in AI odgovora, neke vrste medij v smislu "snov, sredstvo, zlasti kot nosilec fizikalnih ali kemičnih procesov".

Markoff :: 17. okt 2025, 08:33

JanBrezov je 16. okt 2025 ob 08:59 izjavil:

Sem slišal zgodbo od kolega, katerega foter ima sina...

"...my sister's brother's cousin..."?

Sin kolegovega fotra je nihče drug kot tvoj - kolega.

Antifašizem je danes poslednje pribežališče ničvredneža, je ideologija ničesar
in neizprosen boj proti neobstoječemu sovražniku - v zameno za državni denar
in neprofitno najemno stanovanje v središču Ljubljane. -- Tomaž Štih, 2021

gen Maister :: 17. okt 2025, 09:32

Ales78 je 17. okt 2025 ob 07:54 izjavil:

Seljak je 16. okt 2025 ob 20:43 izjavil:
To je klasičen elitistični refleks na novo tehnologijo. Enako so govorili o kalkulatorjih, Wikipediji in IDE-jih. LLM ne naredi nikogar “pametnega”, ampak skrajša pot med idejo in izrazom — tisti, ki nima vsebine, je ne bo imel niti z modelom. Orodje ne ustvarja znanja, omogoča pa, da ga kdo končno zna artikulirati. In ravno to je nekaterim očitno težje sprejeti kot sam obstoj umetne inteligence.
Obdržimo zlato nit trenutne tematike ;)

Orodja vsebujejo znanje, ki ga sam nimas. Ergo, se lahko delas pametnega, kar je jasno vidno po celem internetu.

Umetna inteligenca ne obstaja. Samo marketing je nalasc napacno poimenoval LLMje, da bi jih bolje prodajal in scasoma bo to tudi tebi jasno.

Ker "AI" ni dovolj, ce nimas nic v glavi. Lahko pa se z njim pametnega delas.

Ker si funkcionalno nepismen, čeprav si odličen računalničar, bi moral VEDETI in RAZUMETI, da orodja sicer vsebujejo znanje; znanje tistega, ki jih je naredil in ustvaril. Če pa (ti) ne vidiš, detektiraš in zaznaš problema, ti pa tudi nobeno orodje ne pomaga!

Kaj bi mi, stare sablje, brez vaše mladinske, zelene in fazanske inteligence!?? Tavali bi po izgubljenem in temnem vesolju!!
Da se mi prikazujejo bele miši, podgane in kače, to si mi že razložil. HVALA ti!

Kaj pa tele pajki, ki se plazijo po netu in menda imajo še neke parazitske agente!?? Za katere je potrebno potresti neki bandwinski prašek, kamor človeška noga še ni stopila!??

Oni so resnični!?? 8-O

Seljak :: 17. okt 2025, 10:36

Ales78 je 17. okt 2025 ob 07:54 izjavil:

Seljak je 16. okt 2025 ob 20:43 izjavil:
To je klasičen elitistični refleks na novo tehnologijo. Enako so govorili o kalkulatorjih, Wikipediji in IDE-jih. LLM ne naredi nikogar “pametnega”, ampak skrajša pot med idejo in izrazom — tisti, ki nima vsebine, je ne bo imel niti z modelom. Orodje ne ustvarja znanja, omogoča pa, da ga kdo končno zna artikulirati. In ravno to je nekaterim očitno težje sprejeti kot sam obstoj umetne inteligence.
Obdržimo zlato nit trenutne tematike ;)

Orodja vsebujejo znanje, ki ga sam nimas. Ergo, se lahko delas pametnega, kar je jasno vidno po celem internetu.

Umetna inteligenca ne obstaja. Samo marketing je nalasc napacno poimenoval LLMje, da bi jih bolje prodajal in scasoma bo to tudi tebi jasno.

Ker "AI" ni dovolj, ce nimas nic v glavi. Lahko pa se z njim pametnega delas.

Jaz mislim, da je tvoja predpostavka napačna, ker svojih odgovorov ne sestavljam s pomočjo nobenih orodij, torej stavke oblikujem sam, na podlagi lastnega razumevanja in znanja, ki sem ga pridobil v vseh teh letih šolanja in službovanja.Moje mnenje je, da ni treba imeti “AI” v ozadju, da znaš jasno in argumentirano razmišljati.

Res je, da danes marsikdo uporablja orodja, ki pomagajo pri pisanju, ampak to še ne pomeni, da vsak, ki zna nekaj smiselno povedati, nujno uporablja umetno inteligenco. Mislim, da je veliko preveč ljudi začelo vse, kar je napisano brez slovničnih napak ali z nekaj logične strukture, avtomatsko označevati za delo “AI-ja”. To bolj znak površnega sklepanja kot pa dejanskega razumevanja, kaj pomeni misliti in pisati s svojo glavo.
Vse kar znaš ti in tebi podobni pa je napad.
Pač vse posod mi ni potrebno pisati strokovno. Če pa naletim na novico, ki je pisana meni na kožo pa rad debatiram strokovno. Kar pa za tebe ne morem trditi. Si namreč tako imenovani "iskalec".
No več vas je takšnih, ki niste dorasli svoji koži, ampak argumentirate svoje anomalije kot dokaz svoji nadpovprečni intelegenci, ki ni dorasla trenutni debati.

SmeskoSnezak :: 17. okt 2025, 16:21

Pa ravno je novica da v Aziji je AI polomija pri solah: https://restofworld.org/2025/south-kore...

Torej, AI ali pa spletne strani, internet ni vec isti, kot so ga stari poznali. LP, Smeeskaa

@ Pusti soncu v srce... @

CaqKa :: 25. okt 2025, 14:51

JanBrezov je 16. okt 2025 ob 08:59 izjavil:

Sicer rahlo off-topic, a morda tudi ne. Pred kratkim je bila objavljena študija, v kateri presenečeno ugotovijo, kako malo vsebine je potrebno, da zastrupiš LLM. Če se prav spomnim, je bilo dovolj 250 strani (zadetkov), tisočinka procenta celotne vsebine, skoraj ne glede na velikost LLM-ja (vir).

Lepa hvala za podajo tega linka. Je bilo zelo zanimivo branje za to da sem sploh razumel kako hijackajo te modele :)

Seljak je 16. okt 2025 ob 18:23 izjavil:

Res je, robots.txt je preživel predvsem zaradi samodiscipline velikih igralcev – a ta disciplina je že dolgo erodirala. Google in drugi so se iz “skrbnikov” spleta prelevili v lastnike podatkovnih tokov. Ko imajo v rokah tako asimetrijo moči, se jim mehki standardi zdijo odveč. Zdaj ne gre več za tehnično vprašanje, ampak za to, kdo določa pravila igre – in očitno jih ne določa več skupnost.

Sam mislim da je sedaj skupnost na strani odziva. Določene skupnosti kot so opdrtokodna, so se odločile za pristop z zgoraj omenjenim proof of work. V primeru emaila, se je to že pokazalo kot dobra rešitev. Mogoče se bo tudi tukaj.

Zgodovina sprememb…

spremenil: CaqKa (25. okt 2025 ob 14:56)

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Nekoč je bil robots.txt McHusch Oddelek: Novice / Omrežja / internet	37	5018 (943)	CaqKa 25. okt 2025 14:51:35
»	Po Redditu sme iskati le Google McHusch Oddelek: Novice / Brskalniki	22	4178 (2418)	Lonsarg 26. jul 2024 23:19:59
»	Google ne najde moje spletne strani betmen Oddelek: Izdelava spletišč	27	6665 (5662)	Vzdevek 29. avg 2014 08:51:50
»	izbris strani iz iskalnika najdi.si Izak Oddelek: Omrežja in internet	9	2550 (2220)	Izak 28. mar 2006 17:49:56

Več podobnih tem

Novice » Omrežja / internet » Nekoč je bil robots.txt

Nekoč je bil robots.txt

Ales :: 15. okt 2025, 23:13

gen Maister :: 16. okt 2025, 06:35

Ales78 :: 16. okt 2025, 07:21

c3p0 :: 16. okt 2025, 07:52

gen Maister :: 16. okt 2025, 08:13

MaliSkovik :: 16. okt 2025, 08:35

gen Maister :: 16. okt 2025, 08:42

Sindrom :: 16. okt 2025, 08:51

JanBrezov :: 16. okt 2025, 08:59

Gregor P :: 16. okt 2025, 09:17

Seljak :: 16. okt 2025, 10:33

darkolord :: 16. okt 2025, 11:02

c3p0 :: 16. okt 2025, 12:15

gen Maister :: 16. okt 2025, 12:45

SmeskoSnezak :: 16. okt 2025, 14:28

JanBrezov :: 16. okt 2025, 15:01

Seljak :: 16. okt 2025, 18:23

Ales78 :: 16. okt 2025, 19:10

garamond :: 16. okt 2025, 19:27

Ales78 :: 16. okt 2025, 19:37

Seljak :: 16. okt 2025, 20:43

Squirrel :: 16. okt 2025, 20:55

Seljak :: 16. okt 2025, 21:11

Utk :: 16. okt 2025, 21:15

Squirrel :: 16. okt 2025, 21:34

WhiteAngel :: 17. okt 2025, 00:58

Ales :: 17. okt 2025, 01:13

smihael :: 17. okt 2025, 01:53

HotBurek :: 17. okt 2025, 02:03

Ales78 :: 17. okt 2025, 07:47

Ales78 :: 17. okt 2025, 07:54

JanBrezov :: 17. okt 2025, 08:27

Markoff :: 17. okt 2025, 08:33

gen Maister :: 17. okt 2025, 09:32

Seljak :: 17. okt 2025, 10:36

SmeskoSnezak :: 17. okt 2025, 16:21

CaqKa :: 25. okt 2025, 14:51

Vredno ogleda ...

Novice » Omrežja / internet »
Nekoč je bil robots.txt