Računalnik zna iz navodil generirati video

Jurij Kristan

10. okt 2022 ob 08:32:33

V Meti in Googlu so predstavili strojno učena algoritma, ki iz pisanih navodil ustvarjata kratke filmčke.

Po tem, ko so algoritmi za generiranje slik iz tekstovnih navodil pošteno razburkali področje strojnega učenja, smo očitno že pri naslednji etapi v razvoju tovrstne umetne inteligence: gibljivih sličicah. Že letos spomladi so takšno programje, CogVideo, pokazali v kitajski raziskovalni skupini z univerze Tsinghua in Pekinške akademije za umetno inteligenco, sedaj pa so se na področje pognali tudi zahodni IT velikani. Najprej je konec septembra Metin laboratorij razkril algoritem Make-A-Video, pred dnevi pa so v Googlu pokazali še podobnega Imagen Video. Oba ustvarjata zelo kratke, petsekundne skupke gibljivih sličic, ki so sicer bolj animacije GIF kot pa resni video posnetki, pa vendarle - kot se je že pohvalil Zuckerberg, gre za novo področje napredka v strojni inteligenci, ki je še za stopnjo višje od generiranja slik iz navodil, in daje tudi primerno osupljive rezultate. S pripisom, da nič od prikazanega še ni prosto dostopno, temveč gre za globoko razvojno kodo, zato podjetji seveda za javnost odbirata zgolj najlepše umotvore algoritmov.

Tako Make-A-Video kot Imagen Video sodeč po njunih strokovnih predstavitvah v programskem smislu delujeta podobno. Na štartu je skupek nevronskih mrež z difuznimi modeli, ki ustvarijo pehar sličic v zelo nizki ločljivosti - pri Googlovem algoritmu je to na primer 16 sličic v resoluciji 24×48 pikslov, pri 3 na sekundo. Sledi faza "povečevanja", ki animacijo raztegne na dobrih pet sekund gladkega videa. Oba algoritma sta se obenem učila na podobnih bazah podatkov, ki so vsebovale kombinacijo označenih slik in pa video posnetkov (to se pravi, slikovno vsebino s pripisom, kaj je na njej). Motivi so opazovalcem generativne strojne pameti že poznani; zvečine gre za živali pri hecnih opravilih, kot je panda z mobitelom v rokah. Tudi same podobe so prislovično še blazno razmazane, podobno kot na začetku razvoja algoritmov s slikami. In prav tako se v obeh podjetjih pridušajo, da jih skrbi raba takšnega programja v nečedne namene, kot je generiranje pornografskih posnetkov, zato bo preteklo še nekaj vode, preden svoja algoritma spustijo iz laboratorijev. Je pa očitno, da napredek v strojni inteligenci ne popušča; ravno nasprotno.