Ars Technica - Vsi, ki se v zadnjih nekaj letih niste v kleti skrivali pred svetovnim spletom, gotovo pozate CAPTCHA, test človeškosti, ki od vas ob registraciji na različne forume, oddajanju komentarjev na bloge in v drugih podobnih situacijah zahteva, da z malce popačene slike razberete naključno kombinacijo črk, številk in drugih simbolov.
Raziskovalci z univerze Carnegie Mellon, ki so sistem CAPTCHA izumili, so sedaj pripravili njegovo nadgradnjo, katere namen je poleg obstoječega preverjanja, ali je uporabnik človek ali zlobni spamerski računalnik, še digitalizacija tekstov iz knjig in revij. Novi softver, imenovan reCAPTCHA, doda običajnemu testu še eno sličico z besedo, ki je računalnik sprva ne pozna. Ko dovolj uporabnikov doseže konsenz glede njenega črkovanja, se le-to zapiše v bazo, s čimer se v bistvu izvede zelo napreden OCR.
Glede na statistične podatke se dnevno opravi več kot 60 milijonov opisanih testov, ki v povprečju trajajo 10 sekund. To znese skupaj dobrih 150.000 delovnih ur, ki bi z novim sistemom lahko bile dosti bolj koristne.
Izvorna novica.
Novice » Znanost in tehnologija » Digitalizacija knjig in anti-spam obenem
pivmik ::
Genialno :)
Izkoriščanje človeške računske moči, tako kot to dela Google Image Labeler spletna igrica.
Izkoriščanje človeške računske moči, tako kot to dela Google Image Labeler spletna igrica.
LP, Gregor GRE^
netanyahu ::
Eden od pionirjev 'izrabe' ljudi za računanje je Luis von Ahn. Obvezen je ogled njegovega predavanja Human Computation.
Matev ::
ne zastopim
a nemsto ene besede boš moral uganiti kar dve
ali kak?
tako nejasno je napisano
lahko kdo razloži zadevo
a nemsto ene besede boš moral uganiti kar dve
ali kak?
tako nejasno je napisano
lahko kdo razloži zadevo
Matev ::
izvorni čalnek je pravtako nejasen
zanima me zakaj ni kar 10 besed potzrebno vtipkati
bi še težje bilo
...
zanima me zakaj ni kar 10 besed potzrebno vtipkati
bi še težje bilo
...
Matev ::
sicer pa če je beseda nejasna
potem je velika verjetnost da jo uporabniki napišejo različno
drugič ko bom imel spet eno tako zadevo in ne bom vedel kaj piše
bom izgubil nekaj časa in po možnosti še napačno ugibal
potem je velika verjetnost da jo uporabniki napišejo različno
drugič ko bom imel spet eno tako zadevo in ne bom vedel kaj piše
bom izgubil nekaj časa in po možnosti še napačno ugibal
bluefish ::
če napačno uganeš, itak dobiš novo izbiro. Da pa bi dvakrat zaporedoma falil...
Sicer pa se lahko preizkusiš tukaj .
Sicer pa se lahko preizkusiš tukaj .
Luka Percic ::
Če prav razumem sestavljajo algoritem ki bo razbil njihovo zaščito?
Hehe, potem bojo pa izdali novo, ko jim bo ta ušel.
Hehe, potem bojo pa izdali novo, ko jim bo ta ušel.
Matek ::
Matev, meni se zdi čisto jasno napisano. Ena slika bo, kot dosedaj, za preverjanje ali si človek ali nisi. Računalnik bo imel za to sliko podatke, kaj na njej piše in bo enostavno preveril, če si zadel ter ti s tem omogočil registracijo. Druga sličica pa bo tam zato, da te bodo sproti ponucali še za njihovo OCR delo. Tiste slike računalnik ne bo poznal, vsaj sprva ne, in bo samo zbiral podatke.
Bolje ispasti glup nego iz aviona.
nastyboy ::
Če navežem na novico ki je bla pred parimi dnevi.. Cyc , oz. kako zakodirati zdravo pamet.. bi lahko na tak način naredili ogromno bazo podatkov... oz znanja.. seveda bi mogli imeti v ozadju kako zadevo ki bi malce kontrolirala pravilnost.. to mislim na tak način da bi naprimer 1000 različnih oseb vprašali kakšno zadevo in če bi jih bilo toliko in toliko enakih, bi sprejeli zadevo kot pravilno...
oziroma .. zadevo bi se dalo ponucat ne samo kot OCR ampak tudi za gradnjo "znanja"
LP
oziroma .. zadevo bi se dalo ponucat ne samo kot OCR ampak tudi za gradnjo "znanja"
LP
Zgodovina sprememb…
- spremenil: nastyboy ()
poweroff ::
Jaz pa to malo drugače razumem. Oni so poskenirali neke stare knjige in sedaj dele oz. besede uporabljajo za prepoznavo. Zato sta tudi dve besedi. Prva je tista, ki te avtenticira kot človeka - tukaj računalnik "ve" kaj moraš vpisati. Drugo pa si računalnik zapomni kaj si ti vpisal. In ko veliko ljudi vnese isto besedo za to drugo sliko, računalnik pač "sklepa", da tista grafična slika besede pač pomeni to besedo. In potem vzame za avtentikacijo to besedo in vzame naslednjo neprepoznano. In čez nekaj dni, je poskenirana knjiga "pretipkana" v digitalno obliko.
Super ideja. Mogoče bi tako lahko "ORCjali" tudi kakšne tajne arhive?
Super ideja. Mogoče bi tako lahko "ORCjali" tudi kakšne tajne arhive?
sudo poweroff
sverde21 ::
Ena velika pomanklivost je tle... stvar deluje, tud če sam eno besedo napišeš in folk bo to ugotovu in bo sam eno besedo pisu not, ker se mu ne bo lubilo 2h pisat.
<?php echo `w`; ?>
Matevžk ::
Recimo, da se ne bodo zmenili in pisali ene in iste besede :). Še vedno bo 10 % ljudi vpisalo pravo besedo in ta se bo pojavila večkrat kot posamezne napačne. Mar ne?
lp, Matevžk
kulSMS ::
sem poskusil TU.
izgleda da naključno izbere katero besedo pozna in katero ne.
Sem 3x poskusil samo prvo besedo pravilno vtipkat drugo pa nekaj brez veze, pa mi je tretjič uspelo prit čez.
Se bolj splača obe besedi prav napisat kot pa večkrat po eno pravilno.
izgleda da naključno izbere katero besedo pozna in katero ne.
Sem 3x poskusil samo prvo besedo pravilno vtipkat drugo pa nekaj brez veze, pa mi je tretjič uspelo prit čez.
Se bolj splača obe besedi prav napisat kot pa večkrat po eno pravilno.
sverde21 ::
Jst sm 10x zapovrstjo pršu čez... sicer se pa vid katera beseda je skenirana.
<?php echo `w`; ?>
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | Nov spam/abuse bot na phpBB forumih?Oddelek: Omrežja in internet | 2199 (1547) | Iskraman |
» | Zettabyte File System (ZFS) tudi v operacijskih sistemih za široko raboOddelek: Novice / Operacijski sistemi | 5105 (3489) | Brane2 |
» | [Seminarska naloga] Datotečni sistemiOddelek: Šola | 1838 (1742) | Neo12 |
» | Orožje prihodnosti (strani: 1 2 )Oddelek: Novice / Znanost in tehnologija | 8412 (360) | Pyr0Beast |
» | Novo nForce 4 čipovje za Intel procesorjeOddelek: Novice / Procesorji | 2892 (2701) | flipflop |