» »

OpenAI nadgrajuje algoritem GPT-3 s prepoznavanjem slik

OpenAI nadgrajuje algoritem GPT-3 s prepoznavanjem slik

New Scientist - V laboratoriju za strojno učenje OpenAI so predstavili dva zanimiva nova algoritma, DALL-E in CLIP, ki gradita na njihovem razvpitem generatorju besedil GPT-3. Z njima zmogljivost prepoznave in ustvarjanja teksta prenašajo še na področje slik, s čimer želijo strojni inteligenci omogočiti več različnih smeri za učenje in povezovanje znanja.

Firma OpenAI je lani navdušila z algoritmom za ustvarjanje teksta GPT-3, ki iz kratkega nastavka napravi občasno kar strašljivo prepričljiva besedila. Toda kolikor so te sorte programi na prvi pogled impresivni, se začno hitro kazati njihove omejitve, ko jih pregledamo natančneje. GPT-3 se pri daljših besedilih izgubi, predvsem pa kaj kmalu postane jasno, da v resnici sploh ne razume, kaj besediči. Prav učenje dejanskega razumevanja ustvarjene vsebine je naslednja pomembna stopnica, na katero bo morala strojna inteligenca stopiti za nove preboje. Izziva so se v OpenAIju lotili tako, da so GPT-3 združili s prepoznavo in ustvarjanjem slikovnih podob, s čimer sta nastala dva nova algoritma. DALL-E ustvarja sličice iz tekstovnih navodil, CLIP pa skuša prepoznati pomen videnih podob.

To pomeni: DALL-Eju damo navodilo na primer v obliki "nariši stol s podobo avokada", nakar algoritem povezuje piksle glede na to, česar se je pod takšnimi pojmi naučil. Trenirali so ga na bazi slik, ki so bile označene, medtem ko je bilo učenje Clipa (Contrastive Language-Image Pre-training) rahlo drugačno, saj se je uril na 400 milijonih slik s spleta in njihovih nativnih označbah. Rezultati so, podobno kot pri GPT-3, v nekaterih primerih naravnost neverjetni, če upoštevamo, da zna DALL-E risati tudi nekatere reči, ki v resničnosti sploh ne obstajajo! Prav ta sposobnost improvizacije, oziroma posploševanja znanja, je tisto, k čemur raziskovalci trenutno najbolj stremijo in česar pri sorodnih algoritmih doslej še nismo videli. Tudi CLIP ima nekaj takšnih zanimivih prebliskov, saj zna občasno pravilno prepoznati predmete, ki jih sploh ni bilo na slikah, na katerih se je učil. Takšni algoritmi bodo v prihodnosti odpornejši na motilni šum (adversarial patterns), ki je danes ena poglavitnih šibkih točk konvolucijskih globokih nevronskih mrež.

Seveda pa sta tudi oba novinca še precej omejena. Kot prvo - zbir slik v bistvu dobijo tako, da DALL-E najprej nariše 512 podob, nakar jih CLIP prečeše in izbere 32 takšnih, ki se mu zdijo najprimernejše. Oba tudi še rada zagazita v močvirje, ko ju sunemo iz cone udobja: DALL-E klecne, kakor hitro mu naložimo izrisanje skupine predmetov, oba pa se tudi še ne znajdeta, ko se morata ukvarjati z besedami, ki imajo več različnih pomenov. To slednje je zelo važen detajl, saj kaže na dejstvo, da je pomen besed kulturno pogojen. Prav zato strokovnjaki opozarjajo tudi, da bo treba nad takšno strojno pametjo skrbno bdeti, da ne bo z napačnim razumevanjem družbenega konteksta napravila podobne škode kot današnji pristranski algoritmi, ki na primer ljudi oropajo zdrastvenih storitev samo zato, ker so temnopolti.

1 komentar

DegenGambler ::

Me zanima kako pestro je bilo v njihovem labu, ko so testirali to orodje:

- Naked Melania Trump
- Trump having sex with Putin
- Jansa and Kucan taking a bath
- ...

Zgodovina sprememb…

  • predlagal izbris: twom ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Esej izpod prstov umetne inteligence

Oddelek: Novice / Ostala programska oprema
235898 (4443)          
»

OpenAIjev pisalni algoritem GPT-3 je v beta testiranju

Oddelek: Novice / Znanost in tehnologija
1714695 (13005) gruntfürmich
»

OpenAI nadgrajuje okrepitveno učenje z evolucijo

Oddelek: Novice / Znanost in tehnologija
135145 (3808) vostok_1
»

OpenAI je ustvaril algoritem, ki si ga ne upa spustiti v divjino (strani: 1 2 )

Oddelek: Novice / Znanost in tehnologija
5219866 (15435) FrRoSt

Več podobnih tem