Računalniško prepoznavanje govora ni naučeno angleščine temnopoltih

Matej Huš

25. mar 2020 ob 01:48:56

Sistemi za prepoznavanje govora so v zadnjih letih postali že zelo zmogljivi, tako da jih je možno uporabljati tudi v vsakdanjem življenju. K temu sta pripomogla povečanje korpusa za trening in razvoj metod za strojno učenje. Pet največjih razvijalcev teh sistemov je Amazon, Apple, Google, IBM in Microsoft. Raziskovalci s Stanforda so preverili, kako dobro ti sistemi razpoznavajo govorjeno besedo, in ugotovili, da obstajajo pomembne razlike med rasami (članek v PNAS).

Vseh pet sistemov je dobilo 19,8 ur posnetega materiala, ki je vključeval 42 belih govorcev in 73 temnopoltih. Govorili so z lokalnimi mestnimi govoricami petih mest v ZDA: Princeville (ruralno, večinoma temnopolto prebivalstvo), Rochester (srednje veliko mesto v državi New York), Washington DC, Sacramento (kalifornijska prestolnica) in Humboldt County (ruralno, večinoma belo prebivalstvo). Na koncu so uporabili 2141 izrezkov, ki so v povprečju trajali 17 sekund. Od teh je bilo 44 odstotkov moških, povprečna starost govorcev pa je bila 45 let.

Rezultati so pokazali, da je med tema skupinama govorcev statistično pomembna razlika v prepoznavanju besedil. Računalniški algoritmi so opazno bolje prepoznavali govor belcev. Rasna pristranskost algoritmov ni nekaj novega, saj so jo v preteklosti obravnavali tudi pri sistemih za prepoznavanje obrazov, procesiranje naravnega jezika, spletnem oglaševanju in celo pri programih, s katerimi si ameriška sodišča pomagajo pri določanju dolžine zapornih kazni. Algoritmi znajo, kar jih naučimo, in če jih treniramo na nereprezentativnem vzorcu za celotno populacijo, bodo različno uspešni pri različnih podskupinah.

V odstotku napak (merjeno kot število napačnih, izpuščenih ali vrinjenih besed glede na število vseh besed) so bile razlike očitne. Za temnopolte govorce je bil ta odstotek 35 %, za bele pa zgolj 19 %. Najslabše se je odrezal Applov sistem, najbolje pa Microsoftov, a pri vseh je bila razlika med obema skupinama govorcev približno enaka. Zanimivo je, da so se algoritmi pri temnopoltih moških odrezali dosti slabše kot pri ženskah, pri belcih pa razlika med spoloma ni bila statistično pomembna. Pri temnopoltih govorcih so bile napake pri prepisu enakomerno razporejene po vseh posnetkih, kar pomeni, da so bili večinoma slabše uporabni. Pri belih govorcih krivulja hitreje pada, torej je nekaj posnetkov zelo napačnih, ostali pa so večinoma dobri. Raziskovalci so preverili tudi, da razlog za razlike ni bila uporaba besed, ki jih sistemi ne bi imeli v korpusu. Razlog so bile prozodične prvine, ki so v AAVE (African American Vernacular English) drugačne kakor v govoru belega prebivalstva: ritem, tonemsko in jakostno naglaševanje, dolžina in kakovost samoglasnikov, zvočne premene).

Raziskovalci ugotavljajo, da so te razlike problematične, ker zaradi njih določene skupine prebivalstva ne morejo v popolnosti uporabiti pridobitev modernih tehnologij. Zato opozarjajo na potrebo, da se pri razvoju sistemov vzorči dovolj na široko, da bodo algoritmi sposobni prepoznavati vse dialekte, ki jih uporabljajo prebivalci.