»

WaveNet: strojno učenje za sintezo govora

Slo-Tech - Računalniki znajo že nekaj časa sintetizirati govor (temu pravimo TTS oziroma text-to-speech), a ne glede na uporabljeno metodo rezultati vedno zvenijo vsaj malo umetno. Človeški govor pač ni golo nizanje vnaprej naučenih glasov, temveč na vsak glas vplivajo tudi tisti pred njim in tisti za njim. Možnih kombinacij je ogromno, in to kar kliče po uporabi strojnega učenja. Googlov DeepMind se je lotil tudi tega problema in rezultati kažejo, da so na pravi poti.

Pokazali so delovanje sistema, ki so ga poimenovali WaveNet. Z njim želijo preseči klasične metode, kakršni sta vezani TTS (concatenative TTS), kjer gre za zlaganje fragmente iz velikih baz različnih glasov, in parametrični TTS. Trenutno preizkušajo ameriško...

22 komentarjev