» »

WaveNet: strojno učenje za sintezo govora

WaveNet: strojno učenje za sintezo govora

Slo-Tech - Računalniki znajo že nekaj časa sintetizirati govor (temu pravimo TTS oziroma text-to-speech), a ne glede na uporabljeno metodo rezultati vedno zvenijo vsaj malo umetno. Človeški govor pač ni golo nizanje vnaprej naučenih glasov, temveč na vsak glas vplivajo tudi tisti pred njim in tisti za njim. Možnih kombinacij je ogromno, in to kar kliče po uporabi strojnega učenja. Googlov DeepMind se je lotil tudi tega problema in rezultati kažejo, da so na pravi poti.

Pokazali so delovanje sistema, ki so ga poimenovali WaveNet. Z njim želijo preseči klasične metode, kakršni sta vezani TTS (concatenative TTS), kjer gre za zlaganje fragmente iz velikih baz različnih glasov, in parametrični TTS. Trenutno preizkušajo ameriško angleščino in mandarinsko kitajščino, ki v WaveNetu zvenita bolj naravno kot pri konvencionalnih sistemih za sintezo govora, a še vedno manj naravno od človeških govorcev.

WaveNet še ni nared za komercialno uporabo, ker je računsko še preveč zahteven, da bi se lahko pogovarjali z osebnim računalnikom. Lahko pa DeepMindovi spletni strani poslušamo, kako vse skupaj zveni. Razvoj dobrega sintetizatorja govora postaja čedalje pomembnejši, saj glasovni pomočniki rastejo kot gobe po dežju - Google Now, Siri, Alexa, Cortana itd. Vsi ti bi radi govorili čim bolj podobno ljudem.

Več podrobnosti razkriva Google v dveh strokovnih člankih, poljudneje pa na blogu. V principu gre za konvolucijsko nevronsko mrežo, ki se uči na vzorcih človeškega govora, da zna potem tvoriti človeško zveneče glasove. Še vedno pa potrebuje jezikoslovna pravila in vzorce, sicer ustvarja lepo zveneče nesmisle.

22 komentarjev

Uros!no ::

Razlika je očitna.

Jst ::

Kolegi iz USA, kjer je poslušanje knjig bolj normalno kot branje, pravijo, da imajo najraje, da če avtor sam prebere svojo knjigo. To je na www.audible.com tudi posebej označeno.

--

Kar se pa tiče novice: Da za sintezo govora uporabljajo strojno učenje, NN, me pa sploh nič ne preseneča. V bistvu se mi nekam pozno zdi, vsaj za ene 2 leti.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Phantomeye ::

komaj čakam na prihodnost, k bodo ti asistenti 'pametni' s popolnoma človeškim glasom (po možnosti, takim kot ga bo uporabnik določil - npr. posnel sebe ali svojega najljubšega karakterja).

7982884e ::

rezultati so zelo dobri. na takem nivoju, da, ce gledas youtube video in mas tako naracijo, nisi ziher, a je, al ni cloveska.

googleg1 ::

A se samo meni zdi ali pri drugem examplu namestno painting rece tainting. Crash and burn.

M.B. ::

Zdaj si pa predstavljaj glas politika generiran z Wavenet in slika generirana z Lahko pozabiš na video material kot dokazno gradivo.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

matijadmin ::

To dejansko bere boljše od našega župana! :))
Vrnite nam techno!

leiito ::

Jst je izjavil:

Kolegi iz USA, kjer je poslušanje knjig bolj normalno kot branje, pravijo, da imajo najraje, da če avtor sam prebere svojo knjigo. To je na www.audible.com tudi posebej označeno.

--

Kar se pa tiče novice: Da za sintezo govora uporabljajo strojno učenje, NN, me pa sploh nič ne preseneča. V bistvu se mi nekam pozno zdi, vsaj za ene 2 leti.


Že leta poslušam audiobooks in v večini primerov to, da avtor sam bere svojo knjigo, ni najboljša rešitev, pa tudi posebej pogosto to ni, vsaj ne na non-fiction področju. Profesionalni bralci knjig imajo naravno dober in običajno še šolan glas, optimalno enunciirajo besede in ker gre običajno za igralce, korektno oddelajo tudi dialoge in druge situacije, ki terjajo interpretacijo.

Re: text to speech, sicer iz članka nisem najbolje razumel kako točno WaveNet deluje, ampak da bi angleščina zvenela naravno, se mora (med drugim) povezovati vsako besedo z naslednjo, hitrost oz. dolžina izgovorjave ene in iste besede pa se mora prilagajati drugim besedam v stavku, da se ohranja naravni ritem jezika. Ta del izgovorjave je običajno tudi najtežji za naučiti se za non-native speakerje, ker ohranjajo ritem, tudi če ne nujno naglas, svojega primarnega jezika.

Kar razlagam, če koga morda zanima zakaj je Slovencu v angleščini sorazmerno težko zveneti kot native speaker, je lažje slišati na primerih kot opisovati z besedami:



Glugy ::

"kot native speaker"
Kot govorec maternega jezika*
"za non-native speakerje"
Za tiste katerih jezik ni materni.

Ne rabš uporabljat tujih besed. Mal čudn izpade da hočš poučevat o angleščini s strani maternih govorcev slovenščine ob tem pa ne uporabljaš slovenskih besed. Vstavljanje angleških besed v slovenščino je najmanj neumno ker izpade kot da si pozabil kako se v slovenščini sploh reče določenim besedam in izrazom. To se večkrat pojavlja pri tistih ki malo preveč vložijo v znanje angleščine pa mal premal v ohranitev lepih besed maternega jezika

audiobooks - zvočne knjige

non-fiction - ne-izmišljenem (področju)
optimalno enunciirajo besede - primerno izražajo besede
(če bi hotel "jasno izražanje" izrazit bi moral uporabit besedno zvezo: "to enunciate clearly")

interpretacijo - razlago

text to speech - besedilo v govor


To je mišljena kot dobronamerna kritika.

7982884e ::

a je kdaj v zgodovini nekdo res rekel "besedilo v govor" namesto "text to speech"?

leiito ::

Ja, sej za to gre, včasih se da prevest, ampak je prevod potem preveč okorn, sploh za tvorbo pridevnikov, zvočne knjige ajde, recimo, ampak audiobooks je ustaljen pojem, vsak takoj ve za kaj gre, enako native speaker, enako text-to-speech, ne verjamem, da je slovenščina ogrožena, če se uporabljajo tehnični in drugi strokovni termini iz angleščine. Prevajati non-fiction z ne-izmišljeno področje ne gre, ne moreš kar na novo izumljat besed, prav tako enunciiranje ni primerno izražanje besed, taka sintagma je tudi nejasna, enako interpretacija v tem smislu ni razlaga, tako kot ko igralec interpretira nek lik, da ne razlaga, v tem kontekstu, kot še marsikdaj, se pač uporabljajo tujka. Jebiga, dobronamerna kritika slovenščine, precej neroden jezik je, morda tudi zaro, ker je v veliki meri nastajal umetno, z uvažanjem čeških, poljskih in ruskih besed.

leiito ::

Aja, rečt "to enunicate clearly" bi blo, kot reče Marko Crnkovič, redundantno, ker je definicija "enunciate" že sama po sebi
enunciate
?'n?ns?e?t/
verb
say or pronounce clearly.

Zgodovina sprememb…

  • spremenil: leiito ()

ZigaZiga ::

7982884e je izjavil:

a je kdaj v zgodovini nekdo res rekel "besedilo v govor" namesto "text to speech"?


Diplome, diplome!
Se mora prevesti tudi "native", "game engine", "cross-platform", "checkbox", "radio button" in še mnogo drugih.
Sem že pozabil, kaj je "izvlečni meni" v angleščini. Mislim da "dropdown menu", nisem pa prepričan.

leiito je izjavil:

redundantno


Redundantno - odvečno, nepotrebno (malo za šalo) :D

Zgodovina sprememb…

  • spremenil: ZigaZiga ()

garamond ::

@Glugy Pozabil si prevesti še precej tujk v prvem leiitovem sporočilu: dialog, situacija, optimalno, profesionalen (hm, kaj bi bil pa slovenski izraz? strokoven?), primaren.
A parody of extremism is impossible to differentiate from sincere extremism.

GupeM ::

@Glugy: Zanima me, koliko krat uporabljaš računalniški zaslon namesto monitor, osebni avtomobil namesto avto ter "motorno kolo do 50 kubičnih centimetrov z omejitvijo hitrosti na 45 kilometrov na uro" namesto moped.

nodrim ::

dropdown menu => spustni meni

leiito ::

Meni? Sliši se neslovensko in če smo od prijateljskih narodov že pobrali končnico -ik, jo dejmo izkoristit. Izbirnik?

matijadmin ::

spustni/padajoči meni/seznam, kombinacije naštetih se običajno uporablja pri prevajanju. Izbirnika še nisem zasledil med predlogi, kaj šele, da bi se dejansko uporabljal. Predlagaj na franovemu forumu ali islovarju. Osebno mislim (pa imam kar nekaj izkušenj z lokalizacijo, slovenjenjem programja), da imamo precej uravnoteženo rabo tujk, prevzetih besed in lastnih, povsem poslovenjenih. Rad uporabljam naše besede, a nisem pretiran zagovornik slovenjenja za vsako ceno, ker sem videl, kam to pelje pri sosedih Hrvatih (računalniška terminologija je tam postala tako zahtevna, da je laikom skoraj kot latinščina v medicini).
Vrnite nam techno!

M.B. ::

Saj tudi pri nas nevem koliko ljudi ve katero tipko moraš stisnit če piše pritisnite izmenjalko in dvigalko.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

Jst ::

Izmenjalka = Alt?
Dvigalka = Shift/Caps Lock?
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

M.B. ::

Točno tako. Izmenjalka = alt Dvigalka pa Shift vsaj tako piše na iSlovar, ki sem ga tudi sam največkrat pri prevajanjih uporabil ampak teh izrazov nebi sam ugotovil. Mogoče iz konteksta.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

Jst ::

Educated guess, pač.

Alt = Alternative. Verjetno je to izmenjalka.
Dvigalka? Mogoče Shift, glede da ne vidim na tipkovnici nič drugega, kar bi ustrezalo.

Ampak prvič sem slišal za ti dve besedi, da bi se uporabljali v tem kontekstu.

Za besedo "izmenjalka" pa sploh ne vem, če sem jo sploh slišal kdaj v zadnjih letih, do kolikor mi pač seže spomin...
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Prepoznavanje govora

Oddelek: Programska oprema
354106 (1731) Blop
»

WaveNet: strojno učenje za sintezo govora

Oddelek: Novice / Znanost in tehnologija
223803 (1703) Jst
»

Google želi v dnevne sobe s Chirpom

Oddelek: Novice / Ostalo
355681 (2809) Matthai
»

text to speach

Oddelek: Programska oprema
9973 (793) Stajerc
»

Prepoznavanje zvoka in predvajanje MP3 v C++ ali Delphiju

Oddelek: Programiranje
282035 (1747) Thomas

Več podobnih tem