
vir: Google
Od pomladi 2023, ko smo bili priče grotesknim podobam računalniško zgeneriranega Willa Smitha pri goltanju špagetov, so algoritmi za ustvarjanje video posnetkov napredovali z velikimi koraki. V približno dveh letih smo od posmeha vrednih izdelkov prišli do takšnih, kjer se je treba resno vprašati, ali bi jih bil povprečen uporabnik spleta res zmožen pravilno identificirati. Z najnovejšo, tretjo različico Googlovega algoritma Veo, je izziv postal še dodatno zapleten, ker je sposoben posnetku pripeti tudi govor ali zvok, kakršnega uporabnik zahteva s tekstovnim ukazom.
Pri tem ga sicer mestoma še lomi, saj denimo pade na hudomušnem testu Smithovega požiranja špagetov, ker ti hrustljajo. Toda z nekaj poizkušanja in sreče je mogoče napraviti posnetke, ki so že srhljivo realistični in so jih družbena omrežja že nabito polna. Njihovi ustvarjalci si ob tem pomagajo še z eno novostjo, ki so jo v Googlu prav tako predstavili prejšnji teden: orodjem Flow, ki omogoča spajanje krajših zgeneriranih posnetkov v malo daljše filmčke. Oboje je na voljo naročnikom na najdražjo Googlovo generativno storitev, AI Ultra.
Nastop takšne tehnologije ni preveč presenetljiv, saj so v podjetju že lani pokazali ločeno orodje za ustvarjanje govora in spremljevalne glasbe. Veo 3 je tako dosedanje iznajdbe predvsem združil pod eno streho. Kje natančno so inženirji svoj algoritem učili govoriti, sicer še niso povedali naravnost. Toda glede na dejstvo, da imajo pod svojim okriljem YouTube, to ni težka uganka.