Digitalizacija knjig in anti-spam obenem

Matek

27. maj 2007 ob 11:11:17

Vsi, ki se v zadnjih nekaj letih niste v kleti skrivali pred svetovnim spletom, gotovo pozate CAPTCHA, test človeškosti, ki od vas ob registraciji na različne forume, oddajanju komentarjev na bloge in v drugih podobnih situacijah zahteva, da z malce popačene slike razberete naključno kombinacijo črk, številk in drugih simbolov.

Raziskovalci z univerze Carnegie Mellon, ki so sistem CAPTCHA izumili, so sedaj pripravili njegovo nadgradnjo, katere namen je poleg obstoječega preverjanja, ali je uporabnik človek ali zlobni spamerski računalnik, še digitalizacija tekstov iz knjig in revij. Novi softver, imenovan reCAPTCHA, doda običajnemu testu še eno sličico z besedo, ki je računalnik sprva ne pozna. Ko dovolj uporabnikov doseže konsenz glede njenega črkovanja, se le-to zapiše v bazo, s čimer se v bistvu izvede zelo napreden OCR.

Glede na statistične podatke se dnevno opravi več kot 60 milijonov opisanih testov, ki v povprečju trajajo 10 sekund. To znese skupaj dobrih 150.000 delovnih ur, ki bi z novim sistemom lahko bile dosti bolj koristne.

Izvorna novica.