» »

Po Redditu sme iskati le Google

Po Redditu sme iskati le Google

Slo-Tech - Odkar je Reddit spremenil politiko uporabe, ki pajkom prepoveduje brskanje po strani brez izrecnega dovoljenja, je postalo iskanje po strani precej težje. Reddit je namreč zaradi množičnega strganja vsebin s svoje spletne strani, ki so ga izvajali razvijalci umetne inteligence, to prepovedal. V praksi so to storili z vpisom v datoteko robots.txt, ki prepoveduje dostop vsem pajkom razen Googlovemu.

In tako se je primerilo, da vsi ostali iskalniki ne iščejo več po Redditu. Če jih tja izrecno napotite, denimo s predpono site:reddit.com, rezultatov skorajda ne bo. To je prizadelo Bing, DuckDuckGo, Brave in ostale iskalnike.

Datoteko robots.txt so posodobili 25. junija letos, potem ko so opazili povečano zbiranje vsebin, ki so ga izvajali komercialni ponudniki umetne inteligence. Reddit je zato v robots.txt blokiral vse te pajke. Hkrati dodaja, da si lahko kdorkoli ponovno pridobi dostop, če izpolni obrazec na spletu in obljubi, da se bo lepo vedel. Reddit dodatno pojasnjuje, da so se pogovarjali z večino ponudnikov iskalnikov, a niso našli skupnega jezika. Če se to spremeni, bodo robots.txt ustrezno popravili.

22 komentarjev

GupeM ::

V praksi so to storili z vpisom v datoteko robots.txt, ki prepoveduje dostop vsem pajkom razen Googlovemu.


Ne drži. Vpis v robots.txt nič ne prepoveduje. Samo prosi, da tja in tja ne dostopaš. Nikjer pa nič ne prepoveduje.

Cleon ::

GupeM je izjavil:

V praksi so to storili z vpisom v datoteko robots.txt, ki prepoveduje dostop vsem pajkom razen Googlovemu.


Ne drži. Vpis v robots.txt nič ne prepoveduje. Samo prosi, da tja in tja ne dostopaš. Nikjer pa nič ne prepoveduje.

Prepoved lahko upoštevaš, ali pa ne, a ne glede na to, ti je še vedno prepovedano.

gruntfürmich ::

prihodnost človeštva je temna če se bo AI učila iz takšnih strani kot je reddit & podobni trolfeedi
"Namreč, da gre ta družba počasi v norost in da je vse, kar mi gledamo,
visoko organizirana bebavost, do podrobnosti izdelana idiotija."
Psiholog HUBERT POŽARNIK, v Oni, o smiselnosti moderne družbe...

Jarno ::

Wikipedia FTW. Mislim glede na to, kako legitimno je trenirati AI na določenem spletišču.
#65W!

OutOfTheBox ::

Reddit je zato v robots.txt blokiral vse te pajke. Hkrati dodaja, da si lahko kdorkoli ponovno pridobi dostop, če izpolni obrazec na spletu in obljubi, da se bo lepo vedel


Kot da bi bili glavni na internetu. Reddit v prihodnosti sploh ne bo obstajal več, ni podlage. Le zmolst ga hočejo kolikor se da :)

GupeM ::

Cleon je izjavil:


Prepoved lahko upoštevaš, ali pa ne, a ne glede na to, ti je še vedno prepovedano.

Drži. Ampak ne v primeru robots.txt. To je samo dobra volja iskalnikov, da to upoštevajo.

Načeloma pa robots.txt v osnovi ni bil namenjen temu, da bi pajkom karkoli prepovedoval. Namenjen je bil temu, da si pajke opozoril na to, da nečesa ni pametno indekairati, ker gre za recimo generirano vsebino. Recimo, da imaš spletno stran, a kateri je koledar. Vsak mesec nova stran, spodaj pa dva linka za prejšnji in naslednji mesec.

Ko so bili pajki še neumni, bi indeksirali vse like. Z robots.txt si jim dal vedet, da naj ne indeksirajo, ker je neumno in se bojo zaciklali.

Zdaj so pajki bolj pametni in znajo ugotovit takšne stvari, robots.txt se pa uporablja za to, za kar ni bil zares namenjen. Nikakor pa nihče nima nobene obveze, da kakorkoli upošteva robots.txt datoteko.

OutOfTheBox ::

Robots.txt lahko roboti še vedno indeksirajo, bi pa v primeru če bi se rezultati pojavili kje drugje kot na Googlu, verjetno nastopil pravni problem, zato je bila uporabljena beseda (prepoveduje), čeprav malo nerodno v tem kontekstu.

Pajek seveda lahko skenira kar želi.

Zgodovina sprememb…

GupeM ::

Kakšen pravni problem neki? Kje pa piše, da je upoštevanje robots.txt pravno zavezujoče?

OutOfTheBox ::

Kje pa piše, da je upoštevanje robots.txt pravno zavezujoče?


V Reddit TOS.

Pa tale odstavek posredno temu potrjuje. Pay up or face legal actions. Zakaj bi se moral iskalnik o čem lahko sploh dogovarjat, če bi brez posledic neupošteval robots.txt?

Reddit je zato v robots.txt blokiral vse te pajke. Hkrati dodaja, da si lahko kdorkoli ponovno pridobi dostop, če izpolni obrazec na spletu in obljubi, da se bo lepo vedel. Reddit dodatno pojasnjuje, da so se pogovarjali z večino ponudnikov iskalnikov, a niso našli skupnega jezika. Če se to spremeni, bodo robots.txt ustrezno popravili.

Zgodovina sprememb…

Pithlit ::

TOS != law
Life is as complicated as we make it...

GupeM ::

V ToS lahko napišeš kar želiš. Koliko velja, je pa druga stvar.

OutOfTheBox ::

Velja toliko kolikor je podjetje, ki je oškodovano to pripravljeno enforsat, kar pomeni da v primeru če bi, bi nastal pravni problem. Zato sem skrbno izbral zgoraj besede kjer sem napisal "lahko nastane pravni problem".

Zgodovina sprememb…

Jarno ::

Res zanimiva situacija, ker vsebino ustvarjajo registrirani uporabniki.
Reddit si jo potemtakem "lasti" na ravni avtorskih pravic.
#65W!

GupeM ::

OutOfTheBox je izjavil:

Velja toliko kolikor je podjetje, ki je oškodovano to pripravljeno enforsat, kar pomeni da v primeru če bi, bi nastal pravni problem. Zato sem skrbno izbral zgoraj besede kjer sem napisal "lahko nastane pravni problem".

Torej, če jaz rečem, da ti ne smeš pisat po slo-techu, ti pa še vedno pišeš, lahko nastane pravni problem?

OutOfTheBox ::

ToS posameznega podjetja so samo določila kakšna pravila imajo skupaj s posledicami, če se jih ne drži. Ene posledice so mile (npr ukinitev storitve), druge so pa lahko pravne, če podjetje misli da se ji je naredila škoda. V tem primeru samo Reddit ve kakšne zakonske vzvode oz. podlago imajo za kršitev specifčnih določil.

Pojma nimam kaj tukaj ni jasno. In ja, če ti odgovorim na tvoje povsem nepovezano vprašanje, ja lahko nastane pravni problem če ti javno delam škodo. Forum je javni prostor in imaš v tem primeru določene zakonsko določene vzvode.

Zgodovina sprememb…

Atos ::

Problem ni samo v uporabi same vsebine iz spletnih strani, ki jih kateri koli robot indeksira, ampak tudi v "lepem vedenju" iz vidika agresivnosti indeksiranja vsebin. Pred nekaj meseci se je zgodilo, da je ClaudeBot agresivno indeksiral vsebine spletnih strani in ni bilo malo spletnih strani, ki tako agresivnega indeksiranja enostavno niso zdržale. Takšnih težav z GoogleBot-om nikoli ni bilo. Primer: https://www.reddit.com/r/singularity/co...

Dodatno le ta niti ni upošteval robots.txt, kar pomeni, da ti je efektivno ostala samo blokada preko UserAgent-a. Blokada IP-jev ni prišla v upoštev, ker jih je bilo enostavno preveč, celoten Amazon AS pa prav tako ne moreš blokirati, ker enostavno preveč storitev danes teče na AWS strežnikih (ClaudeBot je indeksiral seveda iz AWS strežnikov).

Glugy ::

Internet je uspel ker je bil smiselno ( ne sicer absolutno ) svoboden, omejevat ga preko te meje pomen iti direktno proti osnovi interneta.

tikitoki ::

Skupni jezik AKA al bodo dovolj placali.

inežnir ::

Pravilno. Red mora biti in Googlu lahko zaupamo, da bo z našimi podatki ravnal odgovorno.

GupeM ::

OutOfTheBox je izjavil:

ToS posameznega podjetja so samo določila kakšna pravila imajo skupaj s posledicami, če se jih ne drži. Ene posledice so mile (npr ukinitev storitve), druge so pa lahko pravne, če podjetje misli da se ji je naredila škoda. V tem primeru samo Reddit ve kakšne zakonske vzvode oz. podlago imajo za kršitev specifčnih določil.

Pojma nimam kaj tukaj ni jasno. In ja, če ti odgovorim na tvoje povsem nepovezano vprašanje, ja lahko nastane pravni problem če ti javno delam škodo. Forum je javni prostor in imaš v tem primeru določene zakonsko določene vzvode.

Daj nehaj, no... robots.txt ni nič, še najmanj pa prepoved. V najboljšem primeru je prošnja.

nijf ::

To je prizadelo Bing, DuckDuckGo, Brave in ostale iskalnike.


Kaj ni Brave samo frontend za Google rezultate?

Crawlanje reddita je itak nesmiselno. Reddit ima API za komentarje in poste in na subredditu /r/pushshift redno s tem API prenašajo vso vsebino in objavljajo torrente z vsemi komentarji in posti vse od 2002 do sedanjosti. Ni sicer torrentov vsak dan, so pa mesečni za tekoče leto.

Je pa, če se prav spomnim, od samega začetka ta API omejen na 1000 stvari na query in kakor se spomnim ne omogoča paginacije, tako da so nekatere objave/komentarji sedaj nedostopni, ker niso nikakor dosegljivi, ne po API, ne po websiteu. Mogoče proti plačilu omogočijo paginacijo (?)

Lonsarg ::

GupeM je izjavil:

OutOfTheBox je izjavil:

ToS posameznega podjetja so samo določila kakšna pravila imajo skupaj s posledicami, če se jih ne drži. Ene posledice so mile (npr ukinitev storitve), druge so pa lahko pravne, če podjetje misli da se ji je naredila škoda. V tem primeru samo Reddit ve kakšne zakonske vzvode oz. podlago imajo za kršitev specifčnih določil.

Pojma nimam kaj tukaj ni jasno. In ja, če ti odgovorim na tvoje povsem nepovezano vprašanje, ja lahko nastane pravni problem če ti javno delam škodo. Forum je javni prostor in imaš v tem primeru določene zakonsko določene vzvode.

Daj nehaj, no... robots.txt ni nič, še najmanj pa prepoved. V najboljšem primeru je prošnja.
Sam robots.txt ni nič takega, je pa hint da pejdi TOS prebrat če hočeš to indeksirat. In če v ToS piše da nečesa ne smeš je to prepoved.

Če je enforcable na sodišču ali ne je veliko vprašanje, ampak če se je Reddit ustrezno pravno zaščitil da je vso vsebino uporabnikov na njihovi strani uspel registirat kot lastno lastnino, potem dejansko ima pravni vzvod da prepove kaj se s to vsebino dela. Dokler seveda nekdo na sodišču ne dokaže, da so bili pogoji s katerimi so se strinjali uporabniki Redita preveč unfair in niso veljavni :)

Glede na to da so ponudniki ki nimajo dogovora nehali indeksirati Reddit očitno SO mnenja da je veliko šans da je zadeva enforcable in nočejo tvegat.

Zgodovina sprememb…

  • spremenil: Lonsarg ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Po Redditu sme iskati le Google

Oddelek: Novice / Brskalniki
222921 (1161) Lonsarg
»

Google ne najde moje spletne strani

Oddelek: Izdelava spletišč
275702 (4699) Vzdevek
»

Kako zaščititi /uploads direktorij?

Oddelek: Izdelava spletišč
162046 (1809) MrBrdo
»

izbris strani iz iskalnika najdi.si

Oddelek: Omrežja in internet
92320 (1990) Izak
»

Kadar želite kaj skriti, bodite temeljiti

Oddelek: Novice / Omrežja / internet
72527 (2527) minmax

Več podobnih tem