Microsoft razvil zmogljiv algoritem za posnemanje govora

Jurij Kristan :: 15. jan 2023 ob 14:40
Znanost in tehnologija

Microsoft - V Microsoftu so predstavili algoritem VALL-E, ki zmore oponašati posameznikov glas že zgolj na podlagi 3-sekundnega vzorca. Zaenkrat še ni na razpolago.

Ob aktualni poplavi generativnih algoritmov vizualnih vsebin, ki zmorejo ustvarjati slike, video posnetke in 3D modele, nezadržno napreduje tudi generiranje zvoka, oziroma človeškega govora. Pri Microsoftu so pred tednom dni predstavili takšen algoritem VALL-E, ki zmore pisani tekst pripovedovati z zvenom in emocionalnim patosom osebe, ki mu je predala že zgolj 3-sekundni vzorec svojega govora. Seveda izdelki, ki jih je mogoče slišati na predstavitveni strani, niso brezhibni in ponekod še vedno izpadejo precej robotski, toda kot prototip nove tehnologije algoritem vseeno navduši. Zaradi potenciala za ponarejanje identitete, oziroma zlorabe, ga Microsoft zaenkrat še ne bo spustil iz laboratorijev, podjetje pa je ravno pred dnevi vnovič podrobneje razdelalo svojo strategijo odgovorne rabe strojne inteligence.

VALL-E je sicer zasnovan na tehnologiji EnCodec, ki so jo lansko jesen predstavili v Meti in je v osnovi sicer namenjena naprednemu stiskanju zvoka, z desetkrat višjo stopnjo kompresije od standarda MP3. Tako se izziva oponašanja govora loti iz samosvoje smeri; medtem ko običajni pristopi iz teksta generiran govor nakdnadno prilagajajo določeni osebi s spreminjanjem tonov in zvena, pa VALL-E štarta iz informacij, "zapakiranih" v skompresirane žetone EnCodeca. Kakor Microsoftovi inženirji razložijo v strokovnem članku, so model trenirali na Metini knjižnici LibriLight, ki vsebuje za 60.000 ur angleškega govora nekaj čez 7000 oseb. Rezultat algoritma je najboljši, če oseba govori podobno kot kateri izmed govorcev v tej bazi podatkov.

10 komentarjev

Karamelo :: 15. jan 2023, 16:02

kot da JJ še nima dovolj oponašalcev :)

XIIT :: 15. jan 2023, 16:18

'Believe nothing you hear, and only one half that you see.' -- Edgar Allan Poe

"Only physical beauty is the foundation for a true higher culture of
the mind and spirit as well. Only sun and steel will show you the path."
Beauty is absolutely terrifying to people because it highlights what is ugly.

Mr.B :: 15. jan 2023, 16:38

Ameriški naglas indijske MS podpore.

France Rejects Genocide Accusations Against Israel in Gaza,
To accuse the Jewish state of genocide is to cross a moral threshold

nejcek74 :: 15. jan 2023, 16:40

Mr.B je 15. jan 2023 ob 16:38 izjavil:

Ameriški naglas indijske MS podpore.

Indijski naglas ameriške MS podpore?

Mr.B :: 15. jan 2023, 16:42

nejcek74 je 15. jan 2023 ob 16:40 izjavil:

Mr.B je 15. jan 2023 ob 16:38 izjavil:
Ameriški naglas indijske MS podpore.

Indijski naglas ameriške MS podpore?

Obe opicje so možno. Bodo že vedeli s kom govorijo in koga je volil, ter temu priredili naglas.

France Rejects Genocide Accusations Against Israel in Gaza,
To accuse the Jewish state of genocide is to cross a moral threshold

Karamelo :: 15. jan 2023, 16:48

svet gre v smeri da vsrkava vse možne medije, zdaj pa šok, da so vse vsebine medijev (zvok, slika, video) lahko fake

FastWIND :: 15. jan 2023, 19:10

Fake World.

_Denny_ :: 15. jan 2023, 19:16

Problemi bodo predvsem v obratni smeri, ko se bodo pojavili pristni posnetki svinjarij, ki bodo potem označeni kot ponaredki. Priljubljen filmski igralec, pevec ali politik že ni storil ali rekel tega, čisto vse je fake.

Asrock X670E Taichi, Ryzen 9 7950X3D + NH-D14, 96GB Corsair DDR5-6400 CL32
RTX 2070S 8GB, 2TB Kingston KC3000, 2TB ADATA SX8200 Pro, 4TB Micron 5200
Seasonic Focus Plus 850W, Corsair Air 540, Logitech Z-2300, Samsung UE65H6400

Karamelo :: 15. jan 2023, 21:22

v bistvu bomo ljudje nehali dajati neko težo na te informacije v obliki slik, videov in zvoka. vprašanje je samo, kako bomo prišli do pravih informacij - ali se bo pojavil kak nov vir informacij oz. nova oblika

bbf :: 16. jan 2023, 10:11

Karamelo je 15. jan 2023 ob 21:22 izjavil:

v bistvu bomo ljudje nehali dajati neko težo na te informacije v obliki slik, videov in zvoka. vprašanje je samo, kako bomo prišli do pravih informacij - ali se bo pojavil kak nov vir informacij oz. nova oblika

Možnosti so, ampak verjetno se to ne bo zgodilo. Ko te enkrat novičarstvo nategne, jim ne boš več zaupal. Verjel.. mogoče. Zaupal.. nikoli!

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Kaj smo videli na CES-u (strani: 1 2 ) McHusch Oddelek: Novice / Znanost in tehnologija	52	18073 (14475)	MrStein 13. jan 2017 14:01:33
»	Kurzweil o projektu Google AI (strani: 1 2 3 ) McHusch Oddelek: Novice / Znanost in tehnologija	130	26754 (23164)	jype 16. jan 2013 00:50:40
»	Nov članek: Mnenje - Patentiranje programsko izvedenih izumov - da ali ne? poweroff Oddelek: Novice / Nova vsebina	42	3743 (2979)	kriko1 27. avg 2005 18:36:33
»	Desktop aplikacije večinoma niso multithreaded??? (strani: 1 2 ) Bistri007 Oddelek: Programiranje	55	4862 (4108)	Gundolf 3. dec 2004 08:20:19

Tema

Sporočila

Ogledi

Zadnje sporočilo

Tema

Sporočila

Ogledi

Zadnje sporočilo