»

Googlov algoritem Veo 3 proizvaja generiran video s sinhroniziranim zvokom

vir: Google
Google - Sredi tedna so pri Googlu lansirali tretjo generacijo svojega algoritma za generiranje videa Veo, ki se tokrat pošteno razlikuje od tekmecev v tem, da je zmožen gibljivim sličicam dodati primerno zgeneriran zvočni posnetek.

Od pomladi 2023, ko smo bili priče grotesknim podobam računalniško zgeneriranega Willa Smitha pri goltanju špagetov, so algoritmi za ustvarjanje video posnetkov napredovali z velikimi koraki. V približno dveh letih smo od posmeha vrednih izdelkov prišli do takšnih, kjer se je treba resno vprašati, ali bi jih bil povprečen uporabnik spleta res zmožen pravilno identificirati. Z najnovejšo, tretjo različico Googlovega algoritma Veo, je izziv postal še dodatno zapleten, ker je sposoben posnetku pripeti tudi govor ali zvok, kakršnega uporabnik zahteva s tekstovnim ukazom.

Pri tem ga sicer mestoma še lomi, saj denimo pade na hudomušnem testu Smithovega požiranja špagetov, ker ti hrustljajo. Toda z nekaj poizkušanja in sreče je mogoče napraviti posnetke, ki so že

20 komentarjev

Google predstavil množico orodij na temelju Geminija

vir: Google
Google - Ob uvodu v razvijalsko konferenco Google I/O 2024 so pri velikanu razkrili kopico programskih novosti, ki se v glavnem tičejo integracije Geminija v njihovo popularno programje, videli pa smo tudi nekaj drugih razkritij, kot je generator videa Veo.

Pričel se je Googlov vsakoletni dogodek za razvijalce, konferenca I/O, ki jo zaštartajo s predstavitvijo novosti, ki nas čakajo v poletnih mesecih (krajši video povzetek). Kot je bilo pričakovati, je bila prezentacija močno osrediščena okoli potiskanja rešitev na osnovi strojnega učenja, se pravi predvsem družine algoritmov Gemini, videli pa smo tudi nekaj drugih zanimivosti. Kot so čivkali že vrabci, bodo skušali z Geminijem nadgraditi tako svoja pisarniška orodja kot iskalnik. Plačljivi uporabniki okolja Workspace, oziroma aplikacij Docs, Slides, Sheets, Drive in Gmail, bodo prihodnji mesec dobili vgrajeno podporo Geminija 1.5 Pro, ki bo zanje sestavljal pošto ali analiziral vsebino dokumentov. Iskalnik za začetek - v ZDA že prihodnji...

7 komentarjev

Google DeepMind predstavil algoritem AlphaFold 3

vir: Google
Google - V Googlovem laboratoriju za strojno učenje so predstavili težko pričakovano naslednjo generacijo proslavljenega algoritma za napovedovanje strukture beljakovin AlphaFold. Tretja generacija se loti naslednjega od temeljnih problemov: oblike beljakovin, ko so pripete na druge funkcionalne molekule.

Ko so v DeepMindu pred poltretjim letom predstavili algoritem AlphaFold 2, so z njim napovedali navdušujoče čase, ko strojno učeni algoritmi ne bodo zgolj sredstvo za halucinirane pogovore na spletu ali generiranje bizarnih sličic, temveč bodo dejansko močno pospešili znanstveni napredek. AlphaFold 2 je že v manj kot letu dni poskrbel za prelomen pospešek na področju računske in strukturne biologije, saj je napovedal zgradbo vseh poznanih proteinov. Kako so beljakovine videti v prostoru, se pravi kako se zvijajo, je ena temeljnih ugank v biologiji in farmaciji, saj je od tega odvisno njihovo obnašanje, oziroma biološke funkcije. Če vemo, kako in zakaj se nek protein oblikuje, lažje...

7 komentarjev

Sora je navdušujoč generator videa iz OpenAI

openai.com - Pri OpenAI so udarili z najavo lastnega naprednega generatorja videa. Sora bistveno presega zmogljivosti dosedanjih tovrstnih algoritmov, vštevši nedavno predstavljenega Googlovega Lumiera.

Odkar sta Meta in Google pred poldrugim letom predstavila svoja prva generativna algoritma za ustvarjanje videa iz tekstovnih ukazov (text-to-video), se tudi to področje hitro razvija. Lansko leto smo videli razmah garažnih podvigov in kopico tekmecev velikanom, kot je Runway, konec letošnjega januarja pa je področje naprej bistveno potisnil Googlov algoritem Lumiere. Ves ta čas pa je med akterji nekdo zanimivo manjkal - namreč čudežni deček industrije OpenAI, ki je sicer z modeloma GPT in DALL-E zaštartal tako norijo okoli besedil kot slik. Očitno so zgolj čakali na pravi trenutek, kajti v četrtek predstavljeno orodje Sora ima glede na trditve in demonstracije podjetja zmogljivosti, ki bistveno presegajo predstave, ki smo jih doslej imeli o tem področju.

Generatorji videa so bili v rojstni...

40 komentarjev

Googlov algoritem Lumiere zna spreminjati slog videa

vir: Google
Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

9 komentarjev

Računalnik zna iz navodil generirati video

vir: Google
Slo-Tech - V Meti in Googlu so predstavili strojno učena algoritma, ki iz pisanih navodil ustvarjata kratke filmčke.

Po tem, ko so algoritmi za generiranje slik iz tekstovnih navodil pošteno razburkali področje strojnega učenja, smo očitno že pri naslednji etapi v razvoju tovrstne umetne inteligence: gibljivih sličicah. Že letos spomladi so takšno programje, CogVideo, pokazali v kitajski raziskovalni skupini z univerze Tsinghua in Pekinške akademije za umetno inteligenco, sedaj pa so se na področje pognali tudi zahodni IT velikani. Najprej je konec septembra Metin laboratorij razkril algoritem Make-A-Video, pred dnevi pa so v Googlu pokazali še podobnega Imagen Video. Oba ustvarjata zelo kratke, petsekundne skupke gibljivih sličic, ki so sicer bolj animacije GIF kot pa resni video posnetki, pa vendarle - kot se je že pohvalil Zuckerberg, gre za novo področje napredka v strojni inteligenci, ki je še za stopnjo višje od generiranja slik iz navodil, in daje tudi primerno osupljive rezultate. S...

8 komentarjev