»

Nekoč je bil robots.txt

Cloudflare - Vsako spletišče je imelo v korenskem direktoriju datoteko robots.txt, v kateri so bila navodila za pajke, ki se plazijo po internetu. V njej smo lahko na primer Googlove robotke prijazno prosili, naj posameznih podstrani ne indeksirajo, in začuda so se tega vsi držali. V svetu, kjer ni nihče upošteval do not track, se je robots.txt tri desetletja zanašal na dejstvo, da so pajki mož beseda. Toda robots.txt počasi, a zanesljivo izgublja svojo vlogo.

Google je v dokumentaciji svoje storitve Google NotebookLM potihoma zapisal, da ne bo upoštevala robots.txt. V utemeljitve piše, da ne gre za klasične pajke, temveč spletne agente, ki delujejo po navodilih uporabnika, ki jih v nekem trenutku sproži. Podobno bo verjetno kmalu veljajo tudi za druge spletne agente. Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1.

A robots.txt, ki se je rodil 1. februarja 1994, ni umrl danes, temveč...

3 komentarji

CloudFlare bo ustvarjalcem vsebin omogočil monetizacijo na račun pajkov umetne inteligence

Slo-Tech - Včasih so se po spletu plazili le pajki iskalnikov, danes pa so jih krepko prehiteli pajki proizvajalcev umetne inteligence, ki za nabiranje vsebine za trening svoji modelov s spleta postrgajo vse dostopne vsebine. Ustvarjalce vsebin to čedalje bolj moti, saj za to ne dobijo nobenega nadomestila, iz njihovega dela ali vsebin pa potem rastejo modeli umetne inteligence, ki jih utegnejo nadomestiti. Marsikdo namreč že danes po spletu "išče" tako, da sprašuje ChatGPT, Copilota ali Gemini. Celo Google je začel na vrhu iskalnih rezultatov prikazovati zgoščeni povzetek rezultatov več spletnih strani, ki ga pripravi umetna inteligenca. Uporabniki tako pogosto nikoli ne odprejo dejanskih virov, ki pa v veliki meri živijo od obiska in oglasov. In ti pajki navodil v robots.txt često ne spoštujejo, prisiliti pa jih ni možno.

Če ne gre zlepa, bo šlo zgrda, meni Cloudflare. Njihov glavni produkt je sicer zaščita pred napadi DDoS, sedaj pa so začeli testirati tudi zaščito pred roboti, ki strgajo...

7 komentarjev

BBC pripravlja tožbo zoper Perplexity AI

BBC - BBC se pripravlja na vložitev tožbe zoper Perplexity AI. Izvršnega direktorja podjetja iz San Francisa so obvestili, da se jezikovni model Perplexity učil na avtorsko zaščitenih vsebinah BBC. Če tega ne bodo prenehali početi in ne bodo takoj izbrisali vseh vsebin, bo BBC tožil. Druga možnost je sklenitev odplačnega dogovor o uporabi BBC-jevih vsebin.

The Wall Street Journal je podobno tožbo zoper Perplexity vložil že oktobra. Slednji sicer trdi, da so BBC-jeve navedbe oportunistične in manipulativne, saj da napačno razumejo delovanje tehnologije, interneta in avtorskega prava. Dodajajo, da Perplexity ne gradi modelov, kot to počno OpenAI, Meta ali pa Google, temveč zgolj ponuja vmesnik, s katerim lahko uporabniki izbirajo med njimi. BBC odgovarja, da v nekaterih primerih orodja dobesedno ponavljajo BBC-jeve vsebine, Perplexity pa da tekmuje z BBC-jevimi storitvami in orodji. Dodajajo, da v nekaterih primerih Perplexity nápak povzema BBC-jeve vsebine, s čimer škoduje ugledu in...

3 komentarji

Po Redditu sme iskati le Google

Slo-Tech - Odkar je Reddit spremenil politiko uporabe, ki pajkom prepoveduje brskanje po strani brez izrecnega dovoljenja, je postalo iskanje po strani precej težje. Reddit je namreč zaradi množičnega strganja vsebin s svoje spletne strani, ki so ga izvajali razvijalci umetne inteligence, to prepovedal. V praksi so to storili z vpisom v datoteko robots.txt, ki prepoveduje dostop vsem pajkom razen Googlovemu.

In tako se je primerilo, da vsi ostali iskalniki ne iščejo več po Redditu. Če jih tja izrecno napotite, denimo s predpono site:reddit.com, rezultatov skorajda ne bo. To je prizadelo Bing, DuckDuckGo, Brave in ostale iskalnike.

Datoteko robots.txt so posodobili 25. junija letos, potem ko so opazili povečano zbiranje vsebin, ki so ga izvajali komercialni ponudniki umetne inteligence. Reddit je zato v robots.txt blokiral vse te pajke. Hkrati dodaja, da si lahko kdorkoli ponovno pridobi dostop, če izpolni obrazec na spletu in obljubi, da se bo lepo vedel. Reddit dodatno pojasnjuje, da so se...

22 komentarjev

Google in Yahoo prepovedala pornografske bloge

ZDNet - Google je konec prejšnjega meseca uporabnike svoje storitve Blogger obvestil, da bo s 1.7. (tri dni kasneje) začel sankcionirati vse bloge s pornografsko vsebino, ki bodo imeli vključene oglase. Kdor bo najden, bo brez vprašanj izbrisan. Sporočilo je bilo torej jasno: če gostujete pornografske vsebine, ne smete služiti z oglasi, ker bi to utegnilo odgnati oglaševalce stran od Googlove platforme. In Google jih še kako rabi, ker jim prihodki več ne rastejo tako hitro kot nekoč, zato potrebuje ves posel, ki ga lahko dobi. Oglaševalci pa znajo biti izjemno občutljivi glede tega, s kakšno vsebino se jih povezuje. V Veliki Britaniji se jim denimo dogaja, da jih uporabniki...

7 komentarjev

Kadar želite kaj skriti, bodite temeljiti

Slo-Tech - Kljub temu, da je na internetu ogromno informacij, ki bi jih človek nepovezane le stežka našel, se veliko teh informacij centralno arhivira na različnih iskalnikih, zato načeloma nimamo problemov, če želimo te razpršene informacije najti.

Problem pa nastopi, če kakšne informacije v iskalniku ni. Lastniki spletnih strani namreč lahko na svojem strežniku ustvarijo posebno datoteko z imenom robots.txt, v kateri določijo, do katerih spletnih mest naj iskalni roboti (programi, ki iščejo in arhivirajo spletne strani) ne dostopajo. Sicer se iskalni roboti teh navodil niso obvezani držati, vendar jih načeloma spoštujejo.

Drugo vprašanje je seveda, zakaj bi si kdo želel, da njegove spletne strani ali njenih delov ni v iskalniku. Administratorji spletnih strežnikov se za to možnost pogosto odločajo zato, ker ne želijo, da jim iskalni roboti prekomerno obremenjujejo strežnik, lahko pa si seveda želijo, da nekatere informacije ne bi bile preveč javno dostopne. To morda še bolj velja za...

7 komentarjev