Adobe Voco je 'Photoshop za zvok' @ Slo-Tech

Novice » Ostala programska oprema »
Adobe Voco je 'Photoshop za zvok'

Adobe Voco je 'Photoshop za zvok'

Matej Huš :: 7. nov 2016 ob 21:02
Ostala programska oprema

BBC - Fotografija pove več kot tisoč besed, v modernih časih pa smo se navadili, da tudi kaj neresničnega. Photoshop je pač sinonim za manipulacijo slik, ki ga zna uporabljati slehernik. Podobno je mogoče manipulirati tudi z zvočnimi posnetki, a je to terjalo nekaj več znanja. Nič več. Adobe je na konferenci MAX 2016 pokazal projekt VoCo, ki ga označujejo kot 'Photoshop za zvok'. Z zgolj nekaj kliki omogoča spreminjanje posnetka, tako da ljudem v usta položimo besede ali stavke, ki jih sploh niso nikoli spregovorili.

VoCo (VoiceOvers) je za zdaj še eksperimentalna tehnika, a je Adobe pokazal, da je na visokem nivoju in da se da z njo početi marsikaj, ni pa še znano, če in kdaj bo na voljo za komercialno rabo. Na predstavitvi je Adobov inženir v VoCo uvozil posnetek govora, ki ga je VoCo zlahka prepoznal in prepisal (transkript), potem pa ga je tudi spremenil. Iz "And And uh I kissed my dog and wife" je brez večjih težav nastalo "And uh I kissed Jordan three times". Nekoliko se sicer še sliši, da je posnetek zmontiran, a je rezultat že zelo dober in bo na koncu nedvomno še boljši. Povedali so, da potrebujejo približno 20 minut govorjenega besedila enega človeka, da lahko začnejo ustvarjati nove besede.

Čeprav VoCo komercialno še ni dostopen, so se že pojavili pomisleki. Kakor je Photoshop spremenil dojemanje fotografij, tako grozi, da bo VoCo dojemanje zvočnih posnetkov. Toda napredka se ne da ustaviti, Adobe pa ni edini na tem področju. V podjetju pravijo, da VoCo za zdaj uporabljajo za popravke v podcastih in branih knjigah, ne vemo pa, kaj ponuja prihodnost.

38 komentarjev

grašek :: 7. nov 2016, 21:11

Zanimivo. Si že predstavljam abuse načine uporabe :))

srus :: 7. nov 2016, 21:23

Zeleno črna kombinacija - stari dobri Cool Edit preden ga je kupil Adobe.

Furbo :: 7. nov 2016, 21:24

Če bodo naredili pri zvoku tako revolucijo, kot so jo pri sliki, bo to impresivno. Ampak dvomim, da se to ne bi zlahka ločilo od pravega govora.

i5-13600K, Noctua NH-D15, TUF Z790-F, 64GB DDR5, 2TB Samsung 990PRO,
Toughpower GF3 1000W, RTX 5080 AORUS, ALIENWARE AW3423DWF, Dell S2722QC

bluefish :: 7. nov 2016, 21:27

Furbo je 7. nov 2016 ob 21:24 izjavil:

Ampak dvomim, da se to ne bi zlahka ločilo od pravega govora.

Slej ko prej se bo. Že zdaj je ob dovolj vzorcih rezultat impresiven glede na rezultate le nekaj let nazaj.
Je pa tule na forumu nekje novica o napredkih Googla in MS, sicer za klasično text to speech varianto.

Zgodovina sprememb…

spremenil: bluefish (7. nov 2016 ob 21:32)

Seljak :: 7. nov 2016, 21:29

Woooow noro dobra zadeva. To moram imeti,ko pride ven

D3m0r4l1z3d :: 7. nov 2016, 21:29

pa smo včasih poskušal z text to speech programa kaj hecnega naredit, samo y za j, c za k,... uporabljat pa aa za pravo izgovorjavo, se je dalo

ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

BivšiUser2 :: 7. nov 2016, 21:47

SloTech - če nisi z nami, si persona non grata.

Han :: 7. nov 2016, 22:18

Adobe Audition 1.5 in 3.01 sta še (bila) uporabna, ker sta temeljila na Cool Edit Pro, od štirice naprej pa so Audition spremenili do te mere, da je za marsikoga postal neuporaben.

ripmork :: 7. nov 2016, 22:40

fajn, fajn. Malo bom piker, ampak naj najprej obstoječe programe v Creative Cloud-u mal poštimajo, ker z vsakim updejtom Photoshopa pretežno opazim nove bug-e.

Blazz :: 7. nov 2016, 22:49

prebereš na glas eno pravljico, naslednjič računalnik prebere naslednjo pravljico... tole bo še super :) da bomo še manj brali in govorili :)

BivšiUser2 :: 7. nov 2016, 22:51

A še kdo pri njih pogreša v zbirki kakšen DAW in/ali 3d rendering program?

SloTech - če nisi z nami, si persona non grata.

poweroff :: 7. nov 2016, 23:20

Evo, plus tole:

Pa imajo "tajni" posnetki na sodiščih velik problem.

sudo poweroff

vostok_1 :: 8. nov 2016, 00:20

To be honest. Ne vidim drugege uporabe kot abuse.

Fuck ej. Naslednja desetletja bodo strupena. Kako točno se bodo take zlorabe anulirale?

There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Zgodovina sprememb…

spremenil: vostok_1 (8. nov 2016 ob 00:25)

poweroff :: 8. nov 2016, 00:41

Em, a zdaj pa verjameš vsemu, kar je v medijih? 8-)

Drugače obstajajo forenzične tehnike za analizo slik. Problem je, da bo razvoj umetne inteligence uporabo teh tehnik bistveno otežil če že ne onemogočil te tehnike. Že recimo samo z dodajanjem ustrezno moduliranega šuma bi se dalo zadeve precej otežiti.

Medtem pa bo policija digitalne dokaze uporabljala na sodiščih nemoteno uporabljala dalje...

sudo poweroff

Oberyn :: 8. nov 2016, 00:44

vostok_1 je 8. nov 2016 ob 00:20 izjavil:

Fuck ej. Naslednja desetletja bodo strupena. Kako točno se bodo take zlorabe anulirale?

Simpl. Se še spomniš, kako se je Old Shatterhand ubranil stepnega požara? Jaz se ga živo spomnim, njega pa Vinetuja pa Henrijeve karabinke. Prižgal je nasprotni ogenj. Torej, sproduciral boš nasprotne dokaze, na enak način. Cele pravljice. Spravil vso krivdo na nasprotno stranko. Sudiji ne bo ostalo drugega, kot oboje izločit.

:: 8. nov 2016, 08:33

Politične stranke si že manejo roke.

Gregor P :: 8. nov 2016, 09:04

Ker ... ?

The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

:: 8. nov 2016, 09:39

Ker bodo tako na enostaven način nasprotnikom polagali besede v usta.

japol :: 8. nov 2016, 10:47

Mathai: Itak, abuse na taki ravni da je neverjetno. Že vidm objave na FB, novicah, portalih,... kjer pbjavljajo take posnetke, čez čas se pa pokaže, da je blo zmontirano. Sam ko je škoda enkrat že narejena se je ne da oprat/popravt.
In še mal pa ne bom mogu posnetku verjet? A je možno da se ga bo in real time lahko "sinhroniziralo"? Da ko bo predsednik mel govor, ga bodo lahko takoj priredil?

poweroff :: 8. nov 2016, 11:05

Itak, da bo mogoče. Mogoče z nekim minimalnim zamikom, pa vendarle.

Tista z obrazno mimiko je sicer univerzalna, tale z VoCo pa v ozadju zahteva ustrezen jezikovni model. Za angleščino so že dovolj dobro razviti, za slovenščino pa bi rabili za cca. 0.5 mio razvoja za univerzalno prepoznavo, potem pa verjetno še nekje do polovico tega zneska za generiranje novih besed s pomočjo algoritmov. Obstajajo pa sistemi, ko natreniraš model na točno določenega posameznika (pri politikih to ni problem, ker je učnega materiala na voljo veliko) in je prepoznava slovenskega jezika že sedaj praktično 100%.

Deep machine learning daje zelo dobre rezultate na tem področju. S tem, da je treba vedeti, da so tole šele začetki. Pa je že tak rezultat.

sudo poweroff

:: 8. nov 2016, 11:39

poweroff je 8. nov 2016 ob 11:05 izjavil:

Obstajajo pa sistemi, ko natreniraš model na točno določenega posameznika (pri politikih to ni problem, ker je učnega materiala na voljo veliko) in je prepoznava slovenskega jezika že sedaj praktično 100%.

Ali pa najameš Sašota Hribarja, ki ti vse to dela v ril tajmu on de flaj.

Gregor P :: 8. nov 2016, 11:40

Bo pač YT&Co uvedli nek portal oz. kanal z avtentičnimi posnetki (ko ga posnameš, ga npr. po želji naložiš tudi na to platformo) oz. kjer boš lahko (hitro) preveril originalnost ostalih posnetkov, ali kaj podobnega.

The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Zgodovina sprememb…

spremenil: Gregor P (8. nov 2016 ob 11:42)

Djz3l3 :: 8. nov 2016, 12:25

srus je 7. nov 2016 ob 21:23 izjavil:

Zeleno črna kombinacija - stari dobri Cool Edit preden ga je kupil Adobe.

pa se zmer top program!!!

Jst :: 8. nov 2016, 14:20

Za avtentičnost posnetkov, sam vidim več rešitev.

Hardware, ki snema, se bo moral prilagoditi in snemati v (sedaj mogoče še nerazvitem*) formatu, kjer se bo zraven ustvarjala tudi neka vrednost, recimo kriptografski hash. V stilu chainblocka.

Za vsak spremenjen posnetek se bo takoj videlo. Če ga pa samo režeš, pa veriga še vedno ostaja.

Tole mi je na hitro padlo na pamet. Ne vem pa, kako bi potem rešil recimo večanje glasnosti. Bi moral malo več brainstormati.

*nisem nič gledal, tako da mogoče že obstaja

Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

blackbfm :: 8. nov 2016, 14:25

Hardware, ki snema, se bo moral prilagoditi in snemati v (sedaj mogoče še nerazvitem*) formatu, kjer se bo zraven ustvarjala tudi neka vrednost, recimo kriptografski hash. V stilu chainblocka.

Haha, komot zaobides taksno zascito ce samo na novo posnames ze zmontiran posnetek

Jst :: 8. nov 2016, 14:33

Ne razumem kako si to predstavljaš?

Posnetek zmontiraš, ga predvajaš kje? Na monitorju in z zvočniki in ga še enkrat posnameš? To bi bila pa zelo slaba kvaliteta.

Sicer pa nisem rekel, da sem v eni minuti našel super rešitev. Izpostavil si slabost, očitno. Ampak mogoče bi se dalo v tej smeri najti rešitev za "authentic" flag.

Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Zgodovina sprememb…

spremenil: Jst (8. nov 2016 ob 14:35)

tigrr :: 8. nov 2016, 15:00

Tko kot je padla trdnjava pri šahu človek vs. računalnik, tko je (oz.bo) pad(a)la tud avtentičnost zvočnega zapisa in medijev. Krasni novi svet je pred vrati :)

leiito :: 8. nov 2016, 15:08

poweroff je 8. nov 2016 ob 11:05 izjavil:

Itak, da bo mogoče. Mogoče z nekim minimalnim zamikom, pa vendarle.

Tista z obrazno mimiko je sicer univerzalna, tale z VoCo pa v ozadju zahteva ustrezen jezikovni model. Za angleščino so že dovolj dobro razviti, za slovenščino pa bi rabili za cca. 0.5 mio razvoja za univerzalno prepoznavo, potem pa verjetno še nekje do polovico tega zneska za generiranje novih besed s pomočjo algoritmov. Obstajajo pa sistemi, ko natreniraš model na točno določenega posameznika (pri politikih to ni problem, ker je učnega materiala na voljo veliko) in je prepoznava slovenskega jezika že sedaj praktično 100%.

Deep machine learning daje zelo dobre rezultate na tem področju. S tem, da je treba vedeti, da so tole šele začetki. Pa je že tak rezultat.

Ta ocena, 0.5 mio, se nanaša na preepoznavo govora?

Oberyn :: 8. nov 2016, 15:11

tigrr je 8. nov 2016 ob 15:00 izjavil:

Tko kot je padla trdnjava pri šahu človek vs. računalnik, tko je (oz.bo) pad(a)la tud avtentičnost zvočnega zapisa in medijev. Krasni novi svet je pred vrati :)

Ne verjamem, da bo to ne vem kak problem. Mogoče na začetku v prehodnem obdobju, ko to še ne bo generalno dostopna tehnologija. Pozneje pa avdio / video material pač ne bo več merodajen nikjer, ker bo vsem jasno, da ni merodajen. Danes se recimo ne moreš več identificirati tako, da sodniku ali policaju pokažeš kup pisem, naslovljenih nate. Pa je bilo to pred 200 leti čist običajno.

vostok_1 :: 8. nov 2016, 15:18

Šele zdej mi je kapnlo na pamet.

Kaj je prva stvar, ki so jo showcase-ali za ta program? ...falsificiranje pogovora. Ne recimo popravek slabe izgovorjave ali kaj kontruktivnega. Nope. Falsificiranje pogovora je bil highlight dneva.
Zato še enkrat poudarjam. To bo koristilo 95% za prirejanje/falsificiranje pogovorov in 5% mogoče za resnično potrebne popravke kakih napak.

Oberyn je 8. nov 2016 ob 15:11 izjavil:

tigrr je 8. nov 2016 ob 15:00 izjavil:
Tko kot je padla trdnjava pri šahu človek vs. računalnik, tko je (oz.bo) pad(a)la tud avtentičnost zvočnega zapisa in medijev. Krasni novi svet je pred vrati :)

Ne verjamem, da bo to ne vem kak problem. Mogoče na začetku v prehodnem obdobju, ko to še ne bo generalno dostopna tehnologija. Pozneje pa avdio / video material pač ne bo več merodajen nikjer, ker bo vsem jasno, da ni merodajen. Danes se recimo ne moreš več identificirati tako, da sodniku ali policaju pokažeš kup pisem, naslovljenih nate. Pa je bilo to pred 200 leti čist običajno.

You have no fucking idea how deep the rabit holes goes, ali kako zlobni so ljudje.

IMO bo to masaker.

There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Zgodovina sprememb…

spremenil: vostok_1 (8. nov 2016 ob 15:19)

tigrr :: 8. nov 2016, 15:38

Problem bo (je) samo tam, kjer bojo ljudje malomarni, zlobni ali nevedni.

Na koncu zajčje luknje se skriva morala tega človeštva, edina stvar, ki nas lahko loči od ničevosti.

vostok_1 :: 8. nov 2016, 16:16

tigrr je 8. nov 2016 ob 15:38 izjavil:

Problem bo (je) samo tam, kjer bojo ljudje malomarni, zlobni ali nevedni.

Si ravno opisal 90% medčloveških odnosev.

There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

M.B. :: 8. nov 2016, 16:35

@Jst, blackbfm: Na podcastu sem pred kratkim poslušal kako lahko določiš ali je bil posnetek zmontiran in kdaj je bil posnet: električen šum. Vsaj v UK snemajo 24ur na dan električen šum. Napetost namreč ni nikoli točno 50 Hz vedno naključno niha in nihanja se ne da napovedat. Če pa šum shranjuješ pa lahko ko dobiš posnetek ugotoviš kdaj je bil posnet razen če je bil res sneman sredi ničesar. Tudi če snemaš s telefonom sredi civilizacije je baje dovolj šuma v posnetku, čeprav ni povezan z električnim omrežjem neposredno. In če posnetek režeš skupaj se zaporedje šuma ne ujema.

Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

boset :: 8. nov 2016, 16:38

TOoo jaa

Gregor P :: 8. nov 2016, 16:43

Aha ... na podlagi M.B. objave sem takoj našel članek iz 2012 BBC: The hum that helps to fight crime ... in mislim, da bi moral biti članek na to temo tudi na slo-techu nekje, če me spomin ne vara.

The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Zgodovina sprememb…

spremenil: Gregor P (8. nov 2016 ob 16:44)

leiito :: 8. nov 2016, 17:07

tigrr je 8. nov 2016 ob 15:38 izjavil:

Problem bo (je) samo tam, kjer bojo ljudje malomarni, zlobni ali nevedni.

Na koncu zajčje luknje se skriva morala tega človeštva, edina stvar, ki nas lahko loči od ničevosti.

Ampak morala ni univerzalna, dost zajeban je absolute postavljat, zato zakoni. Tehnologija je pa načelno nevtralna, guns don't kill people, niso žlice krive, da se ljudje redijo.

Jst :: 8. nov 2016, 20:41

M.B.: Da tudi nekaj takšnega, da v sliko vkomponiraš v stilu steganografije hash, ki prostemu očesu ne bo viden. Če je to blockchain, tudi če režeš, ostaja zaporedje. To je bila moja prva misel. Druga pa, da z posnetkom vežeš še neko drugo informacijo in električni šum, ki je bil omenjen, je idealen za to. Ali recimo nek random number generator, ki dela 24/7, in lahko vedno za nazaj preveriš, kakšna je bila vrednost, in če se ujema. Verjamem, da bi se dalo tudi vseeno nekako shekati tudi to, vendar če je neka bariera, CPU Hard ali Memory Hard, tega ravno vsak ne bo znal z par kliki. Kar je dovolj dobro za TV mreže, da jih ne nategne ravno vsak mulc. Itak naj bi preverili informacije in če obstaja samo en čuden zmontiran posnetek, naj bi preverili, če je to možno. Ali so bile osebe res tam, je dogodek videl še kdo... Samo pri nas, bolj kot ne, samo poročajo kot droni.

offtopic:

Vseeno je pa napredek prepoznave govora impresiven. Mene Google razume tudi sredi vožnje, ko je telefon na sovoznikovem sedežu. Če bi še komande delale, tako kot delajo v ENG, recimo "send messsage", "Frank", bi lahko prostoročno pošiljal SMSje v slovenščini. Speech to text, ko si enkrat v oknu, deluje tako dobro, da moraš na koncu samo popraviti kakšno besedno zvezo in dodati ločila. Res pa je, da te mora Google "spoznati." Jaz sem itak prodal dušo Googlu, zato me ni na nobenem drugem socialnem omrežju ala Facebook.

Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

bMozart :: 8. nov 2016, 21:43

Vedno znova, ko vidim novico na tem področju se spomnen:

"What's the dog's name?"

I NEED The Point of View Gun effectible on girls too! And then...

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Adobe Voco je 'Photoshop za zvok' McHusch Oddelek: Novice / Ostala programska oprema	38	11216 (8987)	bMozart 8. nov 2016 21:43:59
»	C++ voice input urg Oddelek: Programiranje	10	3799 (3332)	Isotropic 21. apr 2014 05:58:38
»	Monitor nujno.... Mateej99 Oddelek: Pomoč in nasveti	10	1101 (961)	mihibo5 18. jul 2013 22:37:50
»	razlogi za CRC error-je? nejko8 Oddelek: Pomoč in nasveti	5	1582 (1485)	karafeka 29. jun 2007 18:03:16
»	AMD Athlon XP (Tbred) 2400 75C mtosev Oddelek: Strojna oprema	32	1762 (1416)	pikachu004 6. sep 2005 23:18:16

Več podobnih tem

Novice » Ostala programska oprema » Adobe Voco je 'Photoshop za zvok'

Adobe Voco je 'Photoshop za zvok'

grašek :: 7. nov 2016, 21:11

srus :: 7. nov 2016, 21:23

Furbo :: 7. nov 2016, 21:24

bluefish :: 7. nov 2016, 21:27

Seljak :: 7. nov 2016, 21:29

D3m0r4l1z3d :: 7. nov 2016, 21:29

BivšiUser2 :: 7. nov 2016, 21:47

Han :: 7. nov 2016, 22:18

ripmork :: 7. nov 2016, 22:40

Blazz :: 7. nov 2016, 22:49

BivšiUser2 :: 7. nov 2016, 22:51

poweroff :: 7. nov 2016, 23:20

vostok_1 :: 8. nov 2016, 00:20

poweroff :: 8. nov 2016, 00:41

Oberyn :: 8. nov 2016, 00:44

:: 8. nov 2016, 08:33

Gregor P :: 8. nov 2016, 09:04

:: 8. nov 2016, 09:39

japol :: 8. nov 2016, 10:47

poweroff :: 8. nov 2016, 11:05

:: 8. nov 2016, 11:39

Gregor P :: 8. nov 2016, 11:40

Djz3l3 :: 8. nov 2016, 12:25

Jst :: 8. nov 2016, 14:20

blackbfm :: 8. nov 2016, 14:25

Jst :: 8. nov 2016, 14:33

tigrr :: 8. nov 2016, 15:00

leiito :: 8. nov 2016, 15:08

Oberyn :: 8. nov 2016, 15:11

vostok_1 :: 8. nov 2016, 15:18

tigrr :: 8. nov 2016, 15:38

vostok_1 :: 8. nov 2016, 16:16

M.B. :: 8. nov 2016, 16:35

boset :: 8. nov 2016, 16:38

Gregor P :: 8. nov 2016, 16:43

leiito :: 8. nov 2016, 17:07

Jst :: 8. nov 2016, 20:41

bMozart :: 8. nov 2016, 21:43

Vredno ogleda ...

Novice » Ostala programska oprema »
Adobe Voco je 'Photoshop za zvok'