Sora je navdušujoč generator videa iz OpenAI

Jurij Kristan

16. feb 2024 ob 09:56:48

Pri OpenAI so udarili z najavo lastnega naprednega generatorja videa. Sora bistveno presega zmogljivosti dosedanjih tovrstnih algoritmov, vštevši nedavno predstavljenega Googlovega Lumiera.

Odkar sta Meta in Google pred poldrugim letom predstavila svoja prva generativna algoritma za ustvarjanje videa iz tekstovnih ukazov (text-to-video), se tudi to področje hitro razvija. Lansko leto smo videli razmah garažnih podvigov in kopico tekmecev velikanom, kot je Runway, konec letošnjega januarja pa je področje naprej bistveno potisnil Googlov algoritem Lumiere. Ves ta čas pa je med akterji nekdo zanimivo manjkal - namreč čudežni deček industrije OpenAI, ki je sicer z modeloma GPT in DALL-E zaštartal tako norijo okoli besedil kot slik. Očitno so zgolj čakali na pravi trenutek, kajti v četrtek predstavljeno orodje Sora ima glede na trditve in demonstracije podjetja zmogljivosti, ki bistveno presegajo predstave, ki smo jih doslej imeli o tem področju.

Generatorji videa so bili v rojstni fazi denimo nezmožni dobro vsebinsko povezovati različne sličice v videu, zato so se objekti na njih popačili in mazali kot figurice iz plastelina. Lumiere je ta problem solidno rešil z algoritmom, ki "razume" objekte v kadru in zna mnogo bolj pristno predstaviti njihovo gibanje. Toda še vedno so Lumierovi izdelki omejeni na pet sekund dogajanja in tudi vsebinsko ne premorejo kaj prida veliko stvari, saj je običajno fokus recimo neka žival z glasbilom. Sora pa zna ponazoriti ulice velemesta, polne ljudi. In to v trajanju do minute dolgo, torej 60 sekund, kar je glede na dosedanji razvoj prelom res orjaških razsežnosti. Za nameček je bistveno sposobnejša tudi pri navodilih, ki so lahko zelo natančna in na primer terjajo posnetek z vidika drona ali skozi okno vlaka.

Kot inženirji razlagajo v spremljevalnem članku, je tudi Sora difuzni model, ki pa so mu dodali neko sposobnost videnja po časovni premici, zato lahko objekti sceno zapuščajo in se nato vanjo zopet vračajo, ne da bi jih to popačilo. Zanimiva je predvsem omemba, da se model uči na koscih slikovnih in video podatkov, ki jim pravijo "patches", podobno kot imamo pri besedilih "zloge" (tokens). Pri učenju si prav tako pomagajo na način, da strojno označujejo te kosce podatkov. Sora bo najprej odšla k ozkemu krogu preizkuševalcev, in sicer na eni strani k raznim dizajnerjem ter filmarjem, pri katerih bo podjetje tipalo, kako bi bilo mogoče takšen algoritem komercialno uporabiti; pa na drugi strani k tistim, ki bodo skušali na vse mogoče načine podreti njegove varnostne mehanizme (red team). Tako bomo kmalu videli, kakšne so dejanske omejitve algoritma in v kolikšni meri so trenutna demonstracijska vsebina zgolj skrbno izbrani najboljši posnetki.

V OpenAI se zavedajo nevarnosti, ki jih lahko takšna tehnologija prinese zaradi zlorab, denimo za namene dezinformacij ali izsiljevalske pornografije, zato nameravajo pred splošnim lansiranjem vdelati mnoge varnostne elemente, od podpisovanja v metapodatkih naprej.