OpenAI nadgrajuje okrepitveno učenje z evolucijo
Jurij Kristan
19. sep 2019 ob 01:23:56
V laboratoriju OpenAI so objavili prve izsledke rabe njihovega novega sistema treninga strojne inteligence, pri katerem pogoje okrepitevega učenja zaostrujejo s tekmovanjem med agenti z različnimi cilji. Njihovi algoritmi so se v tem režimu spontano naučili uporabljati orodja, tudi na neslutene načine.
Odmevni uspehi strojne pameti v zadnjih letih, kot je premagovanje ljudi v Goju, Doti 2 in drugih igrah, slonijo na razmeroma preprostih principih globokih konvolucijskih nevronskih mrež in okrepitvenega učenja, kjer se algoritmi učijo skozi brezštevilne igre samih s seboj. Da bi odkrili morebitne nove in/ali hitrejše načine učenja, so v laboratoriju OpenAI (ki je v začetku leta postal delno komercialno usmerjen) agente vrgli v bolj dinamično okolje, kjer so bolj prišli do izraza evolucijski mehanizmi. In sicer tako, da so nasproti postavili dve ekipi, ki sta se igrali skrivalnice. Morda se to zdi zelo blizu bazičnemu reinforcement learningu, toda pri slednjem so pogoji veliko bolj statični.
Agentje so uporabljali poligon z nekaj preprostimi orodji, kot so kocke, zidovi in klančine. Po 25 milijonih iger so se skrivalniške ekipe naučile uporabiti kocke in zidove, da so zgradile skrivališče, v katerega iskalci niso mogli. Po 75 milijonih iger so se slednji priučili rabe klančin in z njihovo pomočjo prečili zidove. Toda le deset milijonov iger pozneje so skrivalci blokirali rampe in zopet preprečili dostop do skrivališč. Nato je prišel trenutek, ki ga inženirji niso pričakovali: iskalci so "pogruntali", da je mogoče s pomočjo klančin kocke zajahati in na njih odsrfati čez zidove. Naposled je po 380 milijonih iger nasprotna stran ugotovila, da mora blokirati vse elemente na poligonu, preden si zgradi skrivališče.
Izsledki nas lahko dosti naučijo o porajajočem se in dostikrat nenadejanem obnašanju umetne inteligence, kar bo izjemno pomembno, če ji bomo v prihodnosti zaupali vožnjo avtomobilov ali še pomembnejše reči. Za sam OpenAI pa so takšni koraki, ki rinejo napredek dalje, ključni, saj družba pravzaprav vse stavi na globoke konvolucijske mreže (oziroma popularno deep learning). Te imajo vrsto slabosti, kot so požrešnost za podatki, katastrofično pozabljanje in občutljivost na šum, ki jih primitivnost principa okrepitvenega učenja prav boleče izrazi. Zato se v zadnjih letih pojavljajo poskusi spajanja z drugimi sortami nevronskih mrež in njihovih arhitektur, ki se znajo učiti na manjših bazah podatkov. Če bi OpenAIjevi inženirji uspeli najti bistveno hitrejše načine učenja za svoje globoke mreže, bi to zopet dalo večjo težo njihovi (še vedno zelo vehementni) trditvi, da je prav njihov recept pravšen za eventuelen nastanek splošne umetne inteligence.