vir: openai.com
Firma OpenAI je lani navdušila z algoritmom za ustvarjanje teksta GPT-3, ki iz kratkega nastavka napravi občasno kar strašljivo prepričljiva besedila. Toda kolikor so te sorte programi na prvi pogled impresivni, se začno hitro kazati njihove omejitve, ko jih pregledamo natančneje. GPT-3 se pri daljših besedilih izgubi, predvsem pa kaj kmalu postane jasno, da v resnici sploh ne razume, kaj besediči. Prav učenje dejanskega razumevanja ustvarjene vsebine je naslednja pomembna stopnica, na katero bo morala strojna inteligenca stopiti za nove preboje. Izziva so se v OpenAIju lotili tako, da so GPT-3 združili s prepoznavo in ustvarjanjem slikovnih podob, s čimer sta nastala dva nova algoritma. DALL-E ustvarja sličice iz tekstovnih navodil, CLIP pa skuša prepoznati pomen videnih podob.
To pomeni: DALL-Eju damo navodilo na primer v obliki "nariši stol s podobo avokada", nakar algoritem povezuje piksle glede na to, česar se je pod takšnimi pojmi naučil. Trenirali so ga na bazi slik, ki so bile označene, medtem ko je bilo učenje Clipa (Contrastive Language-Image Pre-training) rahlo drugačno, saj se je uril na 400 milijonih slik s spleta in njihovih nativnih označbah. Rezultati so, podobno kot pri GPT-3, v nekaterih primerih naravnost neverjetni, če upoštevamo, da zna DALL-E risati tudi nekatere reči, ki v resničnosti sploh ne obstajajo! Prav ta sposobnost improvizacije, oziroma posploševanja znanja, je tisto, k čemur raziskovalci trenutno najbolj stremijo in česar pri sorodnih algoritmih doslej še nismo videli. Tudi CLIP ima nekaj takšnih zanimivih prebliskov, saj zna občasno pravilno prepoznati predmete, ki jih sploh ni bilo na slikah, na katerih se je učil. Takšni algoritmi bodo v prihodnosti odpornejši na motilni šum (adversarial patterns), ki je danes ena poglavitnih šibkih točk konvolucijskih globokih nevronskih mrež.
Seveda pa sta tudi oba novinca še precej omejena. Kot prvo - zbir slik v bistvu dobijo tako, da DALL-E najprej nariše 512 podob, nakar jih CLIP prečeše in izbere 32 takšnih, ki se mu zdijo najprimernejše. Oba tudi še rada zagazita v močvirje, ko ju sunemo iz cone udobja: DALL-E klecne, kakor hitro mu naložimo izrisanje skupine predmetov, oba pa se tudi še ne znajdeta, ko se morata ukvarjati z besedami, ki imajo več različnih pomenov. To slednje je zelo važen detajl, saj kaže na dejstvo, da je pomen besed kulturno pogojen. Prav zato strokovnjaki opozarjajo tudi, da bo treba nad takšno strojno pametjo skrbno bdeti, da ne bo z napačnim razumevanjem družbenega konteksta napravila podobne škode kot današnji pristranski algoritmi, ki na primer ljudi oropajo zdrastvenih storitev samo zato, ker so temnopolti.