DeepMindov algoritem MuZero se uči kot otrok

Jurij Kristan

25. dec 2020 ob 00:24:11

Alphabetov laboratorij za strojno inteligenco DeepMind je izgotovil nov algoritem, ki se je na samosvoj način izmojstril v igranju šaha, goja, šogija in Atarijevih arkadnih iger. Za učenje ne potrebuje predhodnega branja navodil ali vdelanih izkušenj, temveč se uči na podoben način kot otroci, s preizkušanjem posameznih potez in grajenjem notranjega modela igre, kar pomeni novo stopnjo v razvoju strojnih algoritmov z zmožnostjo posplošenega sklepanja.

Napredovanje DeepMindovih strojnih algoritmov je za nepoučenega opazovalca verjetno videti kot dolgočasno zbiranje naslovov prvaka v raznoraznih igrah. Toda zadaj se skriva zanimivo preizkušanje različnih pristopov k obvladovanju izzivov, ki nas utegnejo nekoč pripeljati do umetne inteligence, ki se bo znala odločati in učiti podobno kot človek. Sloviti AlphaGo, ki je v igri go nadvladal človeka, je - podobno kot šahovski algoritmi - uporabljal napredno različico drevesa dogodkov, ki za množico potez v prihodnosti pove predvideni izid, na podlagi česar stroj izvede najustreznejšo potezo. AlphaGo Zero in kasneje posplošeni AlphaZero sta obenem rezultate dosegla brez človeške pomoči, zgolj z igranjem proti boljšim strojnim različicam. Po drugi plati so algoritmi za igranje popularnih računalniških in videoiger, kot so Atarijeve, zahtevali drugačen pristop. Zaradi nepopolnih informacij in zrahljanih pravil igre se takšni algoritmi obnesejo bolje, če se ne zanašajo na celostno sliko igralnega polja, temveč skorajda "intuitivno" sklepajo na situacijo glede na svoje pretekle izkušnje.

Že od lanske jeseni je jasno, da skušajo v DeepMindu napraviti rešitev, ki bi znala oboje - igrati strogo eksaktne igre, kot je šah in tudi bolj kaotične, kot je Pac-Man. Algoritem so poimenovali MuZero in je z objavo v reviji Nature očitno naposled dosegel zrelost. MuZero uporablja zanimivo kombinacijo nekaterih prijemov iz svojih prednikov, kar v praksi pomeni, da dogajanje in odločitve preračunavajo tri vzporedne podrutine. Problema se loteva popolnoma brez predhodnega znanja - se pravi, pred igranjem ne prebere pravil. Ta mu podajajo postopno, ko preizkuša različne poteze v igri proti drugemu algoritmu, ki je že mojster. Na ta način si postopno ustvarja tako sliko okolij kot tudi zakonitosti, ki jim vladajo. To pomeni, k igram pristopa podobno kot otrok, ki ga učimo prvih potez v šahu. Da je takšen pristop sploh mogoč ali učinkovit,je bilo treba šele potrditi, zato so DeepMindovi izsledki zares navdušujoči: MuZero je dosegel stopnjo AlphaZera v šahu in šogiju po okoli milijonu partij, v goju celo pol manj! Hkrati je obvladal tudi 42 od 57 Atarijevih iger, ki jih raziskovalci v laboratoriju uporabljajo za oceno zmogljivosti.

Ne le, da se zna MuZero lotiti okolišev, o katerih predhodno ne ve prav nič, temveč je v tem tudi relativno varčen. Posamezne inačice so učili zgolj po nekaj dni, na razmeroma pohlevni strojni opremi z ducatom GPUjev, medtem ko naj bi rabo zmogel poganjati že telefon. Trik je v tem, da se MuZero zadovolji z omejeno izbiro odločitev, kar začuda še vedno da povsem spodobne rezultate. Recept je tako obetajoč, da imajo inženirji zanj že vrsto kandidatov med uporabnimi dejavnostmi: kompresijo videa, avtonomno vožnjo, izdelavo zdravil na podlagi informacij o proteinih, ki jih dostavi algoritem AlphaFold ... Izsledki so zanimivi tudi za razvojne psihologe, saj MuZero kaže, da se je mogoče v resnici naučiti zelo kompleksnih reči praktično iz ničle, kar postavlja pod vprašaj hipoteze, ki trdijo, da imamo ljudje nekatera znanja - na primer komunikacijo s soljudmi - že v neki meri prirojena. V naslednji stopnji razvoja bo potrebno algoritme, kot je MuZero, priučiti še upoštevanja vzročnosti, kar pa bi že lahko dalo proto-rešitve, ki bodo odprle vrata do splošnih umetnih inteligenc.