Digitalizacija knjig in anti-spam obenem
Ars Technica - Vsi, ki se v zadnjih nekaj letih niste v kleti skrivali pred svetovnim spletom, gotovo pozate CAPTCHA, test človeškosti, ki od vas ob registraciji na različne forume, oddajanju komentarjev na bloge in v drugih podobnih situacijah zahteva, da z malce popačene slike razberete naključno kombinacijo črk, številk in drugih simbolov.
Raziskovalci z univerze Carnegie Mellon, ki so sistem CAPTCHA izumili, so sedaj pripravili njegovo nadgradnjo, katere namen je poleg obstoječega preverjanja, ali je uporabnik človek ali zlobni spamerski računalnik, še digitalizacija tekstov iz knjig in revij. Novi softver, imenovan reCAPTCHA, doda običajnemu testu še eno sličico z besedo, ki je računalnik sprva ne pozna. Ko dovolj uporabnikov doseže konsenz glede njenega črkovanja, se le-to zapiše v bazo, s čimer se v bistvu izvede zelo napreden OCR.
Glede na statistične podatke se dnevno opravi več kot 60 milijonov opisanih testov, ki v povprečju trajajo 10 sekund. To znese skupaj dobrih 150.000...
Raziskovalci z univerze Carnegie Mellon, ki so sistem CAPTCHA izumili, so sedaj pripravili njegovo nadgradnjo, katere namen je poleg obstoječega preverjanja, ali je uporabnik človek ali zlobni spamerski računalnik, še digitalizacija tekstov iz knjig in revij. Novi softver, imenovan reCAPTCHA, doda običajnemu testu še eno sličico z besedo, ki je računalnik sprva ne pozna. Ko dovolj uporabnikov doseže konsenz glede njenega črkovanja, se le-to zapiše v bazo, s čimer se v bistvu izvede zelo napreden OCR.
Glede na statistične podatke se dnevno opravi več kot 60 milijonov opisanih testov, ki v povprečju trajajo 10 sekund. To znese skupaj dobrih 150.000...