Googlov Translatotron korak bliže ribi babilonki

Matej Huš

18. maj 2019 ob 13:08:47

Googlov spletni prevajalnik postaja iz meseca v mesec boljši, prav tako so Googlovi algoritmi za prepoznavanje in sintezo govora že na zavidljivi ravni. Fuzijo teh tehnologij predstavljajo orodja za simultano prevajanje, kar je na primer Translatotron. Novi model za simultano strojno prevajanje govora se temu cilju že zelo približa, uporablja pa drugačno logiko od dosedanjih poizkusov.

Večina dosedanjih sistemov za tolmačenje je uporabljala prepoznavanje govora (prepis zvočnega posnetka v besedilo), strojno prevajanje besedila in sintezo govora. Kaskadno opravljanje teh funkcij deluje dobro in je tudi sestavni del Google Translate. Novi Translatotron pa deluje drugače.

Kot opisujejo v znanstvenem članku, gre za sistem direktnega prevajanja zvočnega zapisa v zvočni zapis brez vmesnih korakov. Taka rešitev je hitrejša, napravi manj napak (ker se ne seštevajo napake iz več stopenj), omogoča ohranitev govorčevega glasu ter se bolje znajde z besedami, ki ne potrebujejo prevoda (lastna imena).

Google je začel delati na projektu Translatotron leta 2016, ko so teoretično pokazali, da je tak sistem možen, leto pozneje pa so dokazali, da je lahko tudi boljši od kaskadnih sistemov. Danes predstavljajo algoritem, ki v nobeni stopnji ne zapisuje besedila. Translatotron uporablja nevronsko mrežo, ki spektrograme zvočnega posnetka pretvori v spektrograme prevedenega besedila z uporabo dveh komponent: vocoder pretvori spektrogram v časovno domeno, speaker encoder pa rezultat prevoda pretvori nazaj v govor.

Rezultati so neverjetno dobri.