OpenAI predstavil drugo generacijo algoritma DALL-E

Jurij Kristan

11. apr 2022 ob 02:16:19

Laboratorij za strojno učenje OpenAI je pokazal algoritem DALL-E 2, za generiranje slik, ki bistveno nadgrajuje predhodnika in ustvarja navdušujoče verodostojne ter podrobne podobe (tudi) astronavtov na konju v rahlem drncu po Luni.

Lanskega januarja so v družbi za raziskovanje strojne inteligence OpenAI presenetili z algoritmom, ki je znal iz tekstovnega navodila presenetljivo dobro ustvariti želeno podobo. DALL-E je sicer res zvečine izrisal majhne sličice, ki so bile obenem značilno razmazane, kakor smo pri umetni pameti še vedno vajeni - toda že samo dejstvo, da je znal računalnik narisati "stol v podobi avokada", je presunil strokovno javnost. Na tej osnovi je področje hitro napredovalo in postreglo z zanimivimi aplikacijami, kot je Dream ali Baidujev algoritem ERNIE-ViLG. Pred dnevi so v OpenAI predstavili naslednika, DALL-E 2. Tudi njegove sposobnosti milo rečeno sezujejo, saj zna med drugim izrisati "plišaste medvedke v podobi norih znanstvenikov" ali "toplo oblečeno mišjo družino, ki se greje pred ognjiščem".

DALL-E 2 deluje precej drugače od enice. Ta je bila neposredna izpeljanka tekstovnega algoritma GPT-3, le da je skušala namesto teksta v risbo pač dodajati piksle. Dvojka pa je sestavljena iz dveh delov. Prvi je obrnjena verzija algoritma CLIP, ki je prepoznaval vsebino slik; unCLIP zdaj najprej prečeše uporabnikovo tekstovno navodilo in presodi, kaj vse bi moralo stati v sliki. Nato se požene nevronska mreža z difuznim modelom in zgenerira sliko, s katero je zadovoljen CLIP. Tako lahko nastanejo ježki, ki uporabljajo kalkulator ali korgiji v ribjem akvariju. Treba je poudariti, da so demonstracijske podobe seveda premišljeno izbrane in da algoritem skoraj gotovo izbljuva tudi kup zgrešenih ali manj dovršenih rezultatov, toda napredek v zgolj letu in pol je navdušujoč. Slike so po novem v znatno višji ločljivosti: 1024×1024 pik namesto 256×256 pikslov; algoritem zna tudi popravljati obstoječe slike in še kaj.

Prvi DALL-E je bilo moč v omejeni obliki uporabljati na spletni strani, dvojko pa nameravajo inženirji v še nedoločeni prihodnosti v celoti dati na razpolago. Zaenkrat so odprli omejen beta preizkus, na katerega se je treba prijaviti. Prav tako so jih izučile izkušnje z enico, kjer so uporabniki skušali iz algoritma izbezati škodljivo vsebino. V DALL-E 2 so tako blokirali navodila, ki vsebujejo resnične osebe, politiko in pornografijo, nevronskih mrež tudi niso učili na podobah z nasiljem. Vse slike so označene, da je jasno, da gre za računalniško generirano vsebino. Kljub temu preizkuševalce naprošajo, naj skušajo omejitve zlomiti, da bo algoritem čim varnejši za splošno uporabo, ko ga dokončno lansirajo.