Digitalizacija knjig in anti-spam obenem @ Slo-Tech

Novice » Znanost in tehnologija »
Digitalizacija knjig in anti-spam obenem

Digitalizacija knjig in anti-spam obenem

Matek :: 27. maj 2007 ob 11:11
Znanost in tehnologija

Ars Technica - Vsi, ki se v zadnjih nekaj letih niste v kleti skrivali pred svetovnim spletom, gotovo pozate CAPTCHA, test človeškosti, ki od vas ob registraciji na različne forume, oddajanju komentarjev na bloge in v drugih podobnih situacijah zahteva, da z malce popačene slike razberete naključno kombinacijo črk, številk in drugih simbolov.

Raziskovalci z univerze Carnegie Mellon, ki so sistem CAPTCHA izumili, so sedaj pripravili njegovo nadgradnjo, katere namen je poleg obstoječega preverjanja, ali je uporabnik človek ali zlobni spamerski računalnik, še digitalizacija tekstov iz knjig in revij. Novi softver, imenovan reCAPTCHA, doda običajnemu testu še eno sličico z besedo, ki je računalnik sprva ne pozna. Ko dovolj uporabnikov doseže konsenz glede njenega črkovanja, se le-to zapiše v bazo, s čimer se v bistvu izvede zelo napreden OCR.

Glede na statistične podatke se dnevno opravi več kot 60 milijonov opisanih testov, ki v povprečju trajajo 10 sekund. To znese skupaj dobrih 150.000 delovnih ur, ki bi z novim sistemom lahko bile dosti bolj koristne.

Izvorna novica.

16 komentarjev

pivmik :: 27. maj 2007, 11:37

Genialno :)
Izkoriščanje človeške računske moči, tako kot to dela Google Image Labeler spletna igrica.

LP, Gregor GRE^

netanyahu :: 27. maj 2007, 12:27

Eden od pionirjev 'izrabe' ljudi za računanje je Luis von Ahn. Obvezen je ogled njegovega predavanja Human Computation.

Matev :: 27. maj 2007, 12:40

ne zastopim

a nemsto ene besede boš moral uganiti kar dve

ali kak?

tako nejasno je napisano

lahko kdo razloži zadevo

bluefish :: 27. maj 2007, 12:42

preberi si izvorni članek. In ja, vtipkati boš moral dve besedi.

Matev :: 27. maj 2007, 12:52

izvorni čalnek je pravtako nejasen

zanima me zakaj ni kar 10 besed potzrebno vtipkati

bi še težje bilo

...

Matev :: 27. maj 2007, 12:55

sicer pa če je beseda nejasna

potem je velika verjetnost da jo uporabniki napišejo različno

drugič ko bom imel spet eno tako zadevo in ne bom vedel kaj piše
bom izgubil nekaj časa in po možnosti še napačno ugibal

bluefish :: 27. maj 2007, 13:01

če napačno uganeš, itak dobiš novo izbiro. Da pa bi dvakrat zaporedoma falil...
Sicer pa se lahko preizkusiš tukaj

Luka Percic :: 27. maj 2007, 13:30

Če prav razumem sestavljajo algoritem ki bo razbil njihovo zaščito?
Hehe, potem bojo pa izdali novo, ko jim bo ta ušel.

Matev :: 27. maj 2007, 13:36

zanimivo da je skeniran tekst vedno prečrtan in zasukan nekam postrani

Matek :: 27. maj 2007, 14:42

Matev, meni se zdi čisto jasno napisano. Ena slika bo, kot dosedaj, za preverjanje ali si človek ali nisi. Računalnik bo imel za to sliko podatke, kaj na njej piše in bo enostavno preveril, če si zadel ter ti s tem omogočil registracijo. Druga sličica pa bo tam zato, da te bodo sproti ponucali še za njihovo OCR delo. Tiste slike računalnik ne bo poznal, vsaj sprva ne, in bo samo zbiral podatke.

Bolje ispasti glup nego iz aviona.

nastyboy :: 27. maj 2007, 22:33

Če navežem na novico ki je bla pred parimi dnevi.. Cyc , oz. kako zakodirati zdravo pamet.. bi lahko na tak način naredili ogromno bazo podatkov... oz znanja.. seveda bi mogli imeti v ozadju kako zadevo ki bi malce kontrolirala pravilnost.. to mislim na tak način da bi naprimer 1000 različnih oseb vprašali kakšno zadevo in če bi jih bilo toliko in toliko enakih, bi sprejeli zadevo kot pravilno...

oziroma .. zadevo bi se dalo ponucat ne samo kot OCR ampak tudi za gradnjo "znanja"

LP

Zgodovina sprememb…

spremenil: nastyboy (27. maj 2007 ob 22:33)

poweroff :: 28. maj 2007, 07:08

Jaz pa to malo drugače razumem. Oni so poskenirali neke stare knjige in sedaj dele oz. besede uporabljajo za prepoznavo. Zato sta tudi dve besedi. Prva je tista, ki te avtenticira kot človeka - tukaj računalnik "ve" kaj moraš vpisati. Drugo pa si računalnik zapomni kaj si ti vpisal. In ko veliko ljudi vnese isto besedo za to drugo sliko, računalnik pač "sklepa", da tista grafična slika besede pač pomeni to besedo. In potem vzame za avtentikacijo to besedo in vzame naslednjo neprepoznano. In čez nekaj dni, je poskenirana knjiga "pretipkana" v digitalno obliko.

Super ideja. Mogoče bi tako lahko "ORCjali" tudi kakšne tajne arhive? >:D

sudo poweroff

sverde21 :: 28. maj 2007, 08:50

Ena velika pomanklivost je tle... stvar deluje, tud če sam eno besedo napišeš in folk bo to ugotovu in bo sam eno besedo pisu not, ker se mu ne bo lubilo 2h pisat.

<?php echo `w`; ?>

Matevžk :: 28. maj 2007, 09:13

Recimo, da se ne bodo zmenili in pisali ene in iste besede :). Še vedno bo 10 % ljudi vpisalo pravo besedo in ta se bo pojavila večkrat kot posamezne napačne. Mar ne?

lp, Matevžk

kulSMS :: 28. maj 2007, 11:20

sem poskusil TU.
izgleda da naključno izbere katero besedo pozna in katero ne.
Sem 3x poskusil samo prvo besedo pravilno vtipkat drugo pa nekaj brez veze, pa mi je tretjič uspelo prit čez.
Se bolj splača obe besedi prav napisat kot pa večkrat po eno pravilno.

sverde21 :: 28. maj 2007, 17:05

Jst sm 10x zapovrstjo pršu čez... sicer se pa vid katera beseda je skenirana.

<?php echo `w`; ?>

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Nov spam/abuse bot na phpBB forumih? Oven-2k Oddelek: Omrežja in internet	12	2486 (1834)	Iskraman 10. jun 2008 15:02:30
»	Zettabyte File System (ZFS) tudi v operacijskih sistemih za široko rabo MitjaP Oddelek: Novice / Operacijski sistemi	26	5692 (4076)	Brane2 9. jun 2007 20:26:31
»	[Seminarska naloga] Datotečni sistemi Neo12 Oddelek: Šola	8	2123 (2027)	Neo12 17. dec 2006 23:02:59
»	Orožje prihodnosti (strani: 1 2 ) Daedalus Oddelek: Novice / Znanost in tehnologija	56	9620 (1568)	Pyr0Beast 15. apr 2006 22:38:37
»	Novo nForce 4 čipovje za Intel procesorje PrimozR Oddelek: Novice / Procesorji	10	3480 (3289)	flipflop 19. jan 2006 13:07:32

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Novice » Znanost in tehnologija »
Digitalizacija knjig in anti-spam obenem

Digitalizacija knjig in anti-spam obenem