vir: Google
Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih povežejo in povečajo v končni video.
Pri Googlu so sedaj predstavili algoritem Lumiere, ki takšno magijo počne malo drugače. Kot razlagajo v objavi na Arxivu, so sestavili arhitekturo, ki jo imenujejo Space-Time UNet (STUNet) in ki zna - po kmečko povedano - identificirati objekte v sceni in predvideti, kako se bodo obnašali, ko poženemo uro. Zato je Lumiere sposobnejši od konkurence, saj mu je mogoče med drugim naložiti, naj nekatere objekte v videu izriše v drugačnem slogu in denimo ljudi napravi iz plastelina. Rezultat so petsekundni video posnetki v ločljivosti 1024×1024 pik in s 16 sličicami na sekundo, oziroma skupno 80 sličic. Izvor baze podatkov, na kateri se je algoritem učil, ni znan, je pa obsegal 30 milijonov označenih posnetkov. Lumiere ta hip še ni prosto na voljo in bržkone še nekaj časa ne bo. Avtorji namreč opozarjajo, da bodo morali pred lansiranjem vdelati zanesljivejše varnostne elemente za preprečevanje zlorab, kot je aktualna z generiranimi podobami Taylor Swift.