Generiranje slik iz teksta postaja tekma

Jurij Kristan

26. maj 2022 ob 21:55:44

Googlov laboratorij za strojno učenje je predstavil algoritem Imagen, za katerega trdijo, da ustvarja še boljše podobe kot OpenAIjev DALL-E 2.

Zadnji krik področja umetne inteligence so bržkone algoritmi za generiranje slik iz tekstovnih opisov, saj znajo ponekod ustvariti hudo markantne rezultate, kot je podoba tujske hobotnice s časopisom v rokah, ki lebdi skozi portal ali jutranje nakupovalne mrzlice v ekspresionističnem slogu. Z idejo so najbolj udarno pričeli v hiši OpenAI, ko so v začetku lanskega leta predstavili algoritem DALL-E, ki je pred poldrugim mesecem prešel v pošteno nadgrajeno drugo generacijo. Zdaj so se gibanju pridružili še v Googlu in predstavili algoritem Imagen. Kot večina tosortnih programov, tudi Imagen uporablja difuzni model, pri čemer zvito najprej ustvari nizkoločljivostno podobo, ki jo nato razteguje skozi več podalgoritmov, prav tako z difuznimi modeli.

Googlovi inženirji trdijo, da zanesljivo proizvaja boljše podobe od DALL-Eja 2 in so v ta namen zasnovali nekakšno testno orodje, DrawBench, ki glede na 200 vzorčnih navodil ustvari slike, ki jih nato ocenijo človeški opazovalci. Seveda je treba poudariti, da je tovrstne rezultate nemogoče neodvisno preveriti, če algoritem ni v prosti uporabi, pri čemer vemo, da ustvarjalci za čim bolj navdušujočo promocijo radi fino odberejo najboljše rezultate, čeprav ima takšna strojna pamet danes še znatne omejitve. Imagen verjetno v tej začetni obliki nikdar ne bo v prostem dostopu, saj njegovi avtorji priznavajo, da naj bi v njem še mrgolelo pristranskosti, ki so značilne za algoritme, ki se učijo na ogromnih količinah podatkov. Ker nočejo, da bi se Imagen uporabljal za generiranje napačnih reči, ga bodo zaenkrat oddajali v rabo le ozko začrtanemu krogu preizkuševalcev. Tudi DALL-E 2 je trenutno še v zaprtem beta testiranju, v OpenAI pa upajo, da ga bodo lahko nekoč izpustili v divjino.