» »

Digitalizacija knjig in anti-spam obenem

Digitalizacija knjig in anti-spam obenem

Ars Technica - Vsi, ki se v zadnjih nekaj letih niste v kleti skrivali pred svetovnim spletom, gotovo pozate CAPTCHA, test človeškosti, ki od vas ob registraciji na različne forume, oddajanju komentarjev na bloge in v drugih podobnih situacijah zahteva, da z malce popačene slike razberete naključno kombinacijo črk, številk in drugih simbolov.

Raziskovalci z univerze Carnegie Mellon, ki so sistem CAPTCHA izumili, so sedaj pripravili njegovo nadgradnjo, katere namen je poleg obstoječega preverjanja, ali je uporabnik človek ali zlobni spamerski računalnik, še digitalizacija tekstov iz knjig in revij. Novi softver, imenovan reCAPTCHA, doda običajnemu testu še eno sličico z besedo, ki je računalnik sprva ne pozna. Ko dovolj uporabnikov doseže konsenz glede njenega črkovanja, se le-to zapiše v bazo, s čimer se v bistvu izvede zelo napreden OCR.

Glede na statistične podatke se dnevno opravi več kot 60 milijonov opisanih testov, ki v povprečju trajajo 10 sekund. To znese skupaj dobrih 150.000 delovnih ur, ki bi z novim sistemom lahko bile dosti bolj koristne.

Izvorna novica.

16 komentarjev

pivmik ::

Genialno :)
Izkoriščanje človeške računske moči, tako kot to dela Google Image Labeler spletna igrica.
LP, Gregor GRE^

netanyahu ::

Eden od pionirjev 'izrabe' ljudi za računanje je Luis von Ahn. Obvezen je ogled njegovega predavanja Human Computation.

Matev ::

ne zastopim

a nemsto ene besede boš moral uganiti kar dve

ali kak?

tako nejasno je napisano

lahko kdo razloži zadevo

bluefish ::

preberi si izvorni članek. In ja, vtipkati boš moral dve besedi.

Matev ::

izvorni čalnek je pravtako nejasen

zanima me zakaj ni kar 10 besed potzrebno vtipkati

bi še težje bilo

...

Matev ::

sicer pa če je beseda nejasna

potem je velika verjetnost da jo uporabniki napišejo različno

drugič ko bom imel spet eno tako zadevo in ne bom vedel kaj piše
bom izgubil nekaj časa in po možnosti še napačno ugibal

bluefish ::

če napačno uganeš, itak dobiš novo izbiro. Da pa bi dvakrat zaporedoma falil...
Sicer pa se lahko preizkusiš tukaj :D .

Luka Percic ::

Če prav razumem sestavljajo algoritem ki bo razbil njihovo zaščito?
Hehe, potem bojo pa izdali novo, ko jim bo ta ušel.

Matev ::

zanimivo da je skeniran tekst vedno prečrtan in zasukan nekam postrani

Matek ::

Matev, meni se zdi čisto jasno napisano. Ena slika bo, kot dosedaj, za preverjanje ali si človek ali nisi. Računalnik bo imel za to sliko podatke, kaj na njej piše in bo enostavno preveril, če si zadel ter ti s tem omogočil registracijo. Druga sličica pa bo tam zato, da te bodo sproti ponucali še za njihovo OCR delo. Tiste slike računalnik ne bo poznal, vsaj sprva ne, in bo samo zbiral podatke.
Bolje ispasti glup nego iz aviona.

nastyboy ::

Če navežem na novico ki je bla pred parimi dnevi.. Cyc , oz. kako zakodirati zdravo pamet.. bi lahko na tak način naredili ogromno bazo podatkov... oz znanja.. seveda bi mogli imeti v ozadju kako zadevo ki bi malce kontrolirala pravilnost.. to mislim na tak način da bi naprimer 1000 različnih oseb vprašali kakšno zadevo in če bi jih bilo toliko in toliko enakih, bi sprejeli zadevo kot pravilno...

oziroma .. zadevo bi se dalo ponucat ne samo kot OCR ampak tudi za gradnjo "znanja"

LP

Zgodovina sprememb…

  • spremenil: nastyboy ()

poweroff ::

Jaz pa to malo drugače razumem. Oni so poskenirali neke stare knjige in sedaj dele oz. besede uporabljajo za prepoznavo. Zato sta tudi dve besedi. Prva je tista, ki te avtenticira kot človeka - tukaj računalnik "ve" kaj moraš vpisati. Drugo pa si računalnik zapomni kaj si ti vpisal. In ko veliko ljudi vnese isto besedo za to drugo sliko, računalnik pač "sklepa", da tista grafična slika besede pač pomeni to besedo. In potem vzame za avtentikacijo to besedo in vzame naslednjo neprepoznano. In čez nekaj dni, je poskenirana knjiga "pretipkana" v digitalno obliko.

Super ideja. Mogoče bi tako lahko "ORCjali" tudi kakšne tajne arhive? >:D
sudo poweroff

sverde21 ::

Ena velika pomanklivost je tle... stvar deluje, tud če sam eno besedo napišeš in folk bo to ugotovu in bo sam eno besedo pisu not, ker se mu ne bo lubilo 2h pisat.
<?php echo `w`; ?>

Matevžk ::

Recimo, da se ne bodo zmenili in pisali ene in iste besede :). Še vedno bo 10 % ljudi vpisalo pravo besedo in ta se bo pojavila večkrat kot posamezne napačne. Mar ne?
lp, Matevžk

kulSMS ::

sem poskusil TU.
izgleda da naključno izbere katero besedo pozna in katero ne.
Sem 3x poskusil samo prvo besedo pravilno vtipkat drugo pa nekaj brez veze, pa mi je tretjič uspelo prit čez.
Se bolj splača obe besedi prav napisat kot pa večkrat po eno pravilno.

sverde21 ::

Jst sm 10x zapovrstjo pršu čez... sicer se pa vid katera beseda je skenirana.
<?php echo `w`; ?>


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Nov spam/abuse bot na phpBB forumih?

Oddelek: Omrežja in internet
122199 (1547) Iskraman
»

Zettabyte File System (ZFS) tudi v operacijskih sistemih za široko rabo

Oddelek: Novice / Operacijski sistemi
265101 (3485) Brane2
»

[Seminarska naloga] Datotečni sistemi

Oddelek: Šola
81838 (1742) Neo12
»

Orožje prihodnosti (strani: 1 2 )

Oddelek: Novice / Znanost in tehnologija
568412 (360) Pyr0Beast
»

Novo nForce 4 čipovje za Intel procesorje

Oddelek: Novice / Procesorji
102892 (2701) flipflop

Več podobnih tem