» »

Adobe Voco je 'Photoshop za zvok'

Adobe Voco je 'Photoshop za zvok'

BBC - Fotografija pove več kot tisoč besed, v modernih časih pa smo se navadili, da tudi kaj neresničnega. Photoshop je pač sinonim za manipulacijo slik, ki ga zna uporabljati slehernik. Podobno je mogoče manipulirati tudi z zvočnimi posnetki, a je to terjalo nekaj več znanja. Nič več. Adobe je na konferenci MAX 2016 pokazal projekt VoCo, ki ga označujejo kot 'Photoshop za zvok'. Z zgolj nekaj kliki omogoča spreminjanje posnetka, tako da ljudem v usta položimo besede ali stavke, ki jih sploh niso nikoli spregovorili.

VoCo (VoiceOvers) je za zdaj še eksperimentalna tehnika, a je Adobe pokazal, da je na visokem nivoju in da se da z njo početi marsikaj, ni pa še znano, če in kdaj bo na voljo za komercialno rabo. Na predstavitvi je Adobov inženir v VoCo uvozil posnetek govora, ki ga je VoCo zlahka prepoznal in prepisal (transkript), potem pa ga je tudi spremenil. Iz "And And uh I kissed my dog and wife" je brez večjih težav nastalo "And uh I kissed Jordan three times". Nekoliko se sicer še sliši, da je posnetek zmontiran, a je rezultat že zelo dober in bo na koncu nedvomno še boljši. Povedali so, da potrebujejo približno 20 minut govorjenega besedila enega človeka, da lahko začnejo ustvarjati nove besede.

Čeprav VoCo komercialno še ni dostopen, so se že pojavili pomisleki. Kakor je Photoshop spremenil dojemanje fotografij, tako grozi, da bo VoCo dojemanje zvočnih posnetkov. Toda napredka se ne da ustaviti, Adobe pa ni edini na tem področju. V podjetju pravijo, da VoCo za zdaj uporabljajo za popravke v podcastih in branih knjigah, ne vemo pa, kaj ponuja prihodnost.

38 komentarjev

grašek ::

Zanimivo. Si že predstavljam abuse načine uporabe :))

srus ::

Zeleno črna kombinacija - stari dobri Cool Edit preden ga je kupil Adobe.

Furbo ::

Če bodo naredili pri zvoku tako revolucijo, kot so jo pri sliki, bo to impresivno. Ampak dvomim, da se to ne bi zlahka ločilo od pravega govora.
i5-13600K, STRIX Z790-F, 32GB DDR5, 2TB Samsung 990PRO, Toughpower GF3 1000W
RTX3070, ALIENWARE AW3821DW, DELL U3014

bluefish ::

Furbo je izjavil:

Ampak dvomim, da se to ne bi zlahka ločilo od pravega govora.
Slej ko prej se bo. Že zdaj je ob dovolj vzorcih rezultat impresiven glede na rezultate le nekaj let nazaj.
Je pa tule na forumu nekje novica o napredkih Googla in MS, sicer za klasično text to speech varianto.

Zgodovina sprememb…

  • spremenil: bluefish ()

Seljak ::

Woooow noro dobra zadeva. To moram imeti,ko pride ven :D

D3m0r4l1z3d ::

pa smo včasih poskušal z text to speech programa kaj hecnega naredit, samo y za j, c za k,... uporabljat pa aa za pravo izgovorjavo, se je dalo
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

BivšiUser2 ::

SloTech - če nisi z nami, si persona non grata.

Han ::

Adobe Audition 1.5 in 3.01 sta še (bila) uporabna, ker sta temeljila na Cool Edit Pro, od štirice naprej pa so Audition spremenili do te mere, da je za marsikoga postal neuporaben.

ripmork ::

fajn, fajn. Malo bom piker, ampak naj najprej obstoječe programe v Creative Cloud-u mal poštimajo, ker z vsakim updejtom Photoshopa pretežno opazim nove bug-e.

Blazz ::

prebereš na glas eno pravljico, naslednjič računalnik prebere naslednjo pravljico... tole bo še super :) da bomo še manj brali in govorili :)

BivšiUser2 ::

A še kdo pri njih pogreša v zbirki kakšen DAW in/ali 3d rendering program?
SloTech - če nisi z nami, si persona non grata.

poweroff ::

Evo, plus tole:


Pa imajo "tajni" posnetki na sodiščih velik problem.
sudo poweroff

vostok_1 ::

To be honest. Ne vidim drugege uporabe kot abuse.

Fuck ej. Naslednja desetletja bodo strupena. Kako točno se bodo take zlorabe anulirale?
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Zgodovina sprememb…

  • spremenil: vostok_1 ()

poweroff ::

Em, a zdaj pa verjameš vsemu, kar je v medijih? 8-)

Drugače obstajajo forenzične tehnike za analizo slik. Problem je, da bo razvoj umetne inteligence uporabo teh tehnik bistveno otežil če že ne onemogočil te tehnike. Že recimo samo z dodajanjem ustrezno moduliranega šuma bi se dalo zadeve precej otežiti.

Medtem pa bo policija digitalne dokaze uporabljala na sodiščih nemoteno uporabljala dalje...
sudo poweroff

Oberyn ::

vostok_1 je izjavil:

Fuck ej. Naslednja desetletja bodo strupena. Kako točno se bodo take zlorabe anulirale?

Simpl. Se še spomniš, kako se je Old Shatterhand ubranil stepnega požara? Jaz se ga živo spomnim, njega pa Vinetuja pa Henrijeve karabinke. Prižgal je nasprotni ogenj. Torej, sproduciral boš nasprotne dokaze, na enak način. Cele pravljice. Spravil vso krivdo na nasprotno stranko. Sudiji ne bo ostalo drugega, kot oboje izločit.

          ::

Politične stranke si že manejo roke.

Gregor P ::

Ker ... ?:|
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

          ::

Ker bodo tako na enostaven način nasprotnikom polagali besede v usta.

japol ::

Mathai: Itak, abuse na taki ravni da je neverjetno. Že vidm objave na FB, novicah, portalih,... kjer pbjavljajo take posnetke, čez čas se pa pokaže, da je blo zmontirano. Sam ko je škoda enkrat že narejena se je ne da oprat/popravt.
In še mal pa ne bom mogu posnetku verjet? A je možno da se ga bo in real time lahko "sinhroniziralo"? Da ko bo predsednik mel govor, ga bodo lahko takoj priredil?

poweroff ::

Itak, da bo mogoče. Mogoče z nekim minimalnim zamikom, pa vendarle.

Tista z obrazno mimiko je sicer univerzalna, tale z VoCo pa v ozadju zahteva ustrezen jezikovni model. Za angleščino so že dovolj dobro razviti, za slovenščino pa bi rabili za cca. 0.5 mio razvoja za univerzalno prepoznavo, potem pa verjetno še nekje do polovico tega zneska za generiranje novih besed s pomočjo algoritmov. Obstajajo pa sistemi, ko natreniraš model na točno določenega posameznika (pri politikih to ni problem, ker je učnega materiala na voljo veliko) in je prepoznava slovenskega jezika že sedaj praktično 100%.

Deep machine learning daje zelo dobre rezultate na tem področju. S tem, da je treba vedeti, da so tole šele začetki. Pa je že tak rezultat.
sudo poweroff

          ::

poweroff je izjavil:

Obstajajo pa sistemi, ko natreniraš model na točno določenega posameznika (pri politikih to ni problem, ker je učnega materiala na voljo veliko) in je prepoznava slovenskega jezika že sedaj praktično 100%.


Ali pa najameš Sašota Hribarja, ki ti vse to dela v ril tajmu on de flaj.

Gregor P ::

Bo pač YT&Co uvedli nek portal oz. kanal z avtentičnimi posnetki (ko ga posnameš, ga npr. po želji naložiš tudi na to platformo) oz. kjer boš lahko (hitro) preveril originalnost ostalih posnetkov, ali kaj podobnega.
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Zgodovina sprememb…

  • spremenil: Gregor P ()

Djz3l3 ::

srus je izjavil:

Zeleno črna kombinacija - stari dobri Cool Edit preden ga je kupil Adobe.



pa se zmer top program!!!

Jst ::

Za avtentičnost posnetkov, sam vidim več rešitev.

Hardware, ki snema, se bo moral prilagoditi in snemati v (sedaj mogoče še nerazvitem*) formatu, kjer se bo zraven ustvarjala tudi neka vrednost, recimo kriptografski hash. V stilu chainblocka.

Za vsak spremenjen posnetek se bo takoj videlo. Če ga pa samo režeš, pa veriga še vedno ostaja.

Tole mi je na hitro padlo na pamet. Ne vem pa, kako bi potem rešil recimo večanje glasnosti. Bi moral malo več brainstormati.


*nisem nič gledal, tako da mogoče že obstaja
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

blackbfm ::

Hardware, ki snema, se bo moral prilagoditi in snemati v (sedaj mogoče še nerazvitem*) formatu, kjer se bo zraven ustvarjala tudi neka vrednost, recimo kriptografski hash. V stilu chainblocka.


Haha, komot zaobides taksno zascito ce samo na novo posnames ze zmontiran posnetek

Jst ::

Ne razumem kako si to predstavljaš?

Posnetek zmontiraš, ga predvajaš kje? Na monitorju in z zvočniki in ga še enkrat posnameš? To bi bila pa zelo slaba kvaliteta.

Sicer pa nisem rekel, da sem v eni minuti našel super rešitev. Izpostavil si slabost, očitno. Ampak mogoče bi se dalo v tej smeri najti rešitev za "authentic" flag.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Zgodovina sprememb…

  • spremenil: Jst ()

tigrr ::

Tko kot je padla trdnjava pri šahu človek vs. računalnik, tko je (oz.bo) pad(a)la tud avtentičnost zvočnega zapisa in medijev. Krasni novi svet je pred vrati :)

leiito ::

poweroff je izjavil:

Itak, da bo mogoče. Mogoče z nekim minimalnim zamikom, pa vendarle.

Tista z obrazno mimiko je sicer univerzalna, tale z VoCo pa v ozadju zahteva ustrezen jezikovni model. Za angleščino so že dovolj dobro razviti, za slovenščino pa bi rabili za cca. 0.5 mio razvoja za univerzalno prepoznavo, potem pa verjetno še nekje do polovico tega zneska za generiranje novih besed s pomočjo algoritmov. Obstajajo pa sistemi, ko natreniraš model na točno določenega posameznika (pri politikih to ni problem, ker je učnega materiala na voljo veliko) in je prepoznava slovenskega jezika že sedaj praktično 100%.

Deep machine learning daje zelo dobre rezultate na tem področju. S tem, da je treba vedeti, da so tole šele začetki. Pa je že tak rezultat.


Ta ocena, 0.5 mio, se nanaša na preepoznavo govora?

Oberyn ::

tigrr je izjavil:

Tko kot je padla trdnjava pri šahu človek vs. računalnik, tko je (oz.bo) pad(a)la tud avtentičnost zvočnega zapisa in medijev. Krasni novi svet je pred vrati :)

Ne verjamem, da bo to ne vem kak problem. Mogoče na začetku v prehodnem obdobju, ko to še ne bo generalno dostopna tehnologija. Pozneje pa avdio / video material pač ne bo več merodajen nikjer, ker bo vsem jasno, da ni merodajen. Danes se recimo ne moreš več identificirati tako, da sodniku ali policaju pokažeš kup pisem, naslovljenih nate. Pa je bilo to pred 200 leti čist običajno.

vostok_1 ::

Šele zdej mi je kapnlo na pamet.

Kaj je prva stvar, ki so jo showcase-ali za ta program? ...falsificiranje pogovora. Ne recimo popravek slabe izgovorjave ali kaj kontruktivnega. Nope. Falsificiranje pogovora je bil highlight dneva.
Zato še enkrat poudarjam. To bo koristilo 95% za prirejanje/falsificiranje pogovorov in 5% mogoče za resnično potrebne popravke kakih napak.

Oberyn je izjavil:

tigrr je izjavil:

Tko kot je padla trdnjava pri šahu človek vs. računalnik, tko je (oz.bo) pad(a)la tud avtentičnost zvočnega zapisa in medijev. Krasni novi svet je pred vrati :)

Ne verjamem, da bo to ne vem kak problem. Mogoče na začetku v prehodnem obdobju, ko to še ne bo generalno dostopna tehnologija. Pozneje pa avdio / video material pač ne bo več merodajen nikjer, ker bo vsem jasno, da ni merodajen. Danes se recimo ne moreš več identificirati tako, da sodniku ali policaju pokažeš kup pisem, naslovljenih nate. Pa je bilo to pred 200 leti čist običajno.


You have no fucking idea how deep the rabit holes goes, ali kako zlobni so ljudje.

IMO bo to masaker.
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Zgodovina sprememb…

  • spremenil: vostok_1 ()

tigrr ::

Problem bo (je) samo tam, kjer bojo ljudje malomarni, zlobni ali nevedni.

Na koncu zajčje luknje se skriva morala tega človeštva, edina stvar, ki nas lahko loči od ničevosti.

vostok_1 ::

tigrr je izjavil:

Problem bo (je) samo tam, kjer bojo ljudje malomarni, zlobni ali nevedni.


Si ravno opisal 90% medčloveških odnosev.
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

M.B. ::

@Jst, blackbfm: Na podcastu sem pred kratkim poslušal kako lahko določiš ali je bil posnetek zmontiran in kdaj je bil posnet: električen šum. Vsaj v UK snemajo 24ur na dan električen šum. Napetost namreč ni nikoli točno 50 Hz vedno naključno niha in nihanja se ne da napovedat. Če pa šum shranjuješ pa lahko ko dobiš posnetek ugotoviš kdaj je bil posnet razen če je bil res sneman sredi ničesar. Tudi če snemaš s telefonom sredi civilizacije je baje dovolj šuma v posnetku, čeprav ni povezan z električnim omrežjem neposredno. In če posnetek režeš skupaj se zaporedje šuma ne ujema.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

boset ::

TOoo jaa
Main Desktop:
i9 14900k | EK Custom loop S480 | Asus APEX Encore Z790 | RTX4090 Strix OC
G.Skill 32Gb DDR5 7200 | WD_Black 850XNVMe | ThorII 1200W

Gregor P ::

Aha ... na podlagi M.B. objave sem takoj našel članek iz 2012 BBC: The hum that helps to fight crime ... in mislim, da bi moral biti članek na to temo tudi na slo-techu nekje, če me spomin ne vara.
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Zgodovina sprememb…

  • spremenil: Gregor P ()

leiito ::

tigrr je izjavil:

Problem bo (je) samo tam, kjer bojo ljudje malomarni, zlobni ali nevedni.

Na koncu zajčje luknje se skriva morala tega človeštva, edina stvar, ki nas lahko loči od ničevosti.


Ampak morala ni univerzalna, dost zajeban je absolute postavljat, zato zakoni. Tehnologija je pa načelno nevtralna, guns don't kill people, niso žlice krive, da se ljudje redijo.

Jst ::

M.B.: Da tudi nekaj takšnega, da v sliko vkomponiraš v stilu steganografije hash, ki prostemu očesu ne bo viden. Če je to blockchain, tudi če režeš, ostaja zaporedje. To je bila moja prva misel. Druga pa, da z posnetkom vežeš še neko drugo informacijo in električni šum, ki je bil omenjen, je idealen za to. Ali recimo nek random number generator, ki dela 24/7, in lahko vedno za nazaj preveriš, kakšna je bila vrednost, in če se ujema. Verjamem, da bi se dalo tudi vseeno nekako shekati tudi to, vendar če je neka bariera, CPU Hard ali Memory Hard, tega ravno vsak ne bo znal z par kliki. Kar je dovolj dobro za TV mreže, da jih ne nategne ravno vsak mulc. Itak naj bi preverili informacije in če obstaja samo en čuden zmontiran posnetek, naj bi preverili, če je to možno. Ali so bile osebe res tam, je dogodek videl še kdo... Samo pri nas, bolj kot ne, samo poročajo kot droni.


offtopic:

Vseeno je pa napredek prepoznave govora impresiven. Mene Google razume tudi sredi vožnje, ko je telefon na sovoznikovem sedežu. Če bi še komande delale, tako kot delajo v ENG, recimo "send messsage", "Frank", bi lahko prostoročno pošiljal SMSje v slovenščini. Speech to text, ko si enkrat v oknu, deluje tako dobro, da moraš na koncu samo popraviti kakšno besedno zvezo in dodati ločila. Res pa je, da te mora Google "spoznati." Jaz sem itak prodal dušo Googlu, zato me ni na nobenem drugem socialnem omrežju ala Facebook.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

bMozart ::

Vedno znova, ko vidim novico na tem področju se spomnen:

"What's the dog's name?"
I NEED The Point of View Gun effectible on girls too! And then...


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Adobe Voco je 'Photoshop za zvok'

Oddelek: Novice / Ostala programska oprema
388555 (6326) bMozart
»

C++ voice input

Oddelek: Programiranje
102821 (2354) Isotropic
»

Monitor nujno....

Oddelek: Pomoč in nasveti
10786 (646) mihibo5
»

razlogi za CRC error-je?

Oddelek: Pomoč in nasveti
51219 (1122) karafeka
»

AMD Athlon XP (Tbred) 2400 75C

Oddelek: Strojna oprema
321350 (1004) pikachu004

Več podobnih tem