vir: Technology Review
Lansko poletje smo pisali, da v Doti 2 računalnik še ne nadvlada človeka, ko je algoritem OpenAI Five v ekshibicijskih bojih na prireditvi The International klonil proti človeškim profesionalcem. Manj kot leto dni dodatnega treninga je bilo potrebno, da je strojna pamet položaj obrnila sebi v prid, kajti sredi aprila so v dvoboju na dogodku OpenAI Five Finals padli aktualni svetovni prvaki z Internationala 2018, moštvo OG. Rezultat v igrah je bil 2:0 za stroj in to dokaj prepričljivo, posebno še v drugi igri. OpenAI Five je temelje za zmago obakrat postavil že zgodaj, z agresivnimi prijemi, ki jih ljudje redko uporabljajo, na primer zgodnjimi buybacki. OG bi teoretično lahko položaj obrnili v poznejši igri, kjer ima človek še vedno prednost pred računalnikom v sposobnosti dolgoročnega načrtovanja, toda v obeh primerih so bili že pred tem potolčeni. Ob robu je potrebno poudariti, da so tudi tokrat uporabljali rahlo modificirano verzijo Dote 2, z zgolj sedemnajstimi heroji od sicer več kot stotih.
Ker sta dve igri zelo majhen statistični vzorec, so teden dni zatem OpenAI Five za tri dni spustili v divjino, v okviru online dogodka Arena, kjer se je z njim lahko pomeril slehernik. Trajalo je 459 iger ali več kot šest ur, da je strojna pamet prvič klonila in čeprav jo je ena od človeških ekip naštudirala dovolj dobro, da jo je premagala desetkrat, inženirji še vedno pravijo, da spletna skupnost na njej ni našla očitnejših lukenj, s katerimi bi jo lahko rutinsko izigravala. Na koncu dogodka je tako Five še vedno odnesel zmago v 99,4% od nekaj čez štiri tisoč odigranih bojev. V laboratoriju bodo sedaj skušali svojega digitalnega monstruma posplošiti na vso Doto 2 z vsemi heroji, z enim očesom pa že pogledujejo na področja izven igričarskih, kjer bodo pridobljene izkušnje praktično uporabili za reševanje stvarnih problemov.
Če so v OpenAI za svojo grupno AI uporabili Doto 2, pa skušajo v Alphabetovem laboratoriju DeepMind sodelovanje med strojnimi agenti doseči v okviru moštvenih igralnih načinov v Quaku 3. Za štart so se osredotočili na capture the flag, kjer smo lani videli prva njihova poročila o tem. Pred dnevi je dokumentacija dobila odprto peer review objavo v publikaciji Science, ki odpira zanimiv vpogled v napredek v zadnjem letu. S preprostim okrepitvenim učenjem - se pravi načinom, v katerem AI skozi ponavljajoče se igre ohranja vzorce obnašanja, ki ji prinašajo zmago, slabše pa zavrže - se je algoritem po imenu For the Win dokopal do mnogih taktik, ki jih sicer vidimo pri človeških igralcih. Denimo do prijema, kjer bot v situaciji, ko njegov soborec že beži s sovražno zastavo, kampira v sovražni postojanki, da lahko v trenutku, ko se zastavica spet udejanji, le-to takoj zaseže. Zelo zanimiv detajl je še ta, da se je takšno obnašanje razvilo brez kakršnekoli komunikacije med agenti, ki so torej svojo spretnost urili zgolj z opazovanjem svoje okolice. Tako pravzaprav v tem primeru še ne gre za pravo ekipno igranje.
Boti so bili tudi umetno hendikepirani na področjih refleksov in merjenja, da v tem oziru ne bi imeli nepravične prednosti. Tako so bili lahko raziskovalci bolj prepričani, da je njihova superiornost izvirala iz taktičnih in strateških prijemov. For the Win je za trening odigral 450.000 iger, nakar so sledile naključno oblikovane partije s štiridesetimi človeškimi igralci. Ne glede na postavljene ekipe so se boti odrezali občutno bolje od ljudi: tudi najboljši človeški tekmovalci so zmagali le v med 20 in 30 odstotkih iger. Seveda pa je potrebno poleg omeniti, da so za ta test namensko uporabili ljudi s širokega spretnostnega spektra in da še čakamo na dvoboj z uigrano ekipo najboljših meatbagov, kar jih premore civilizacija. V DeepMindu pa For The Win že urijo v preostalih igralnih načini Quaka 3 (velja prebrati njihov celoten povzetek ali si ga ogledati v video obliki).