» »

Strojna pamet slavi v Doti 2 in Quaku 3

Strojna pamet slavi v Doti 2 in Quaku 3

Slo-Tech - Zadnji meseci so prinesli sveže novice o napredku umetne inteligence laboratorijev OpenAI in DeepMind v igranju iger s človeškimi nasprotniki. Strojna pamet OpenAI Five je prvič premagala eno vodilnih človeških ekip v Doti 2 na svetu, OG. DeepMindovi agenti pa so se znesli nad ljudmi v Quakovem načinu CTF.

Lansko poletje smo pisali, da v Doti 2 računalnik še ne nadvlada človeka, ko je algoritem OpenAI Five v ekshibicijskih bojih na prireditvi The International klonil proti človeškim profesionalcem. Manj kot leto dni dodatnega treninga je bilo potrebno, da je strojna pamet položaj obrnila sebi v prid, kajti sredi aprila so v dvoboju na dogodku OpenAI Five Finals padli aktualni svetovni prvaki z Internationala 2018, moštvo OG. Rezultat v igrah je bil 2:0 za stroj in to dokaj prepričljivo, posebno še v drugi igri. OpenAI Five je temelje za zmago obakrat postavil že zgodaj, z agresivnimi prijemi, ki jih ljudje redko uporabljajo, na primer zgodnjimi buybacki. OG bi teoretično lahko položaj obrnili v poznejši igri, kjer ima človek še vedno prednost pred računalnikom v sposobnosti dolgoročnega načrtovanja, toda v obeh primerih so bili že pred tem potolčeni. Ob robu je potrebno poudariti, da so tudi tokrat uporabljali rahlo modificirano verzijo Dote 2, z zgolj sedemnajstimi heroji od sicer več kot stotih.

Ker sta dve igri zelo majhen statistični vzorec, so teden dni zatem OpenAI Five za tri dni spustili v divjino, v okviru online dogodka Arena, kjer se je z njim lahko pomeril slehernik. Trajalo je 459 iger ali več kot šest ur, da je strojna pamet prvič klonila in čeprav jo je ena od človeških ekip naštudirala dovolj dobro, da jo je premagala desetkrat, inženirji še vedno pravijo, da spletna skupnost na njej ni našla očitnejših lukenj, s katerimi bi jo lahko rutinsko izigravala. Na koncu dogodka je tako Five še vedno odnesel zmago v 99,4% od nekaj čez štiri tisoč odigranih bojev. V laboratoriju bodo sedaj skušali svojega digitalnega monstruma posplošiti na vso Doto 2 z vsemi heroji, z enim očesom pa že pogledujejo na področja izven igričarskih, kjer bodo pridobljene izkušnje praktično uporabili za reševanje stvarnih problemov.

Če so v OpenAI za svojo grupno AI uporabili Doto 2, pa skušajo v Alphabetovem laboratoriju DeepMind sodelovanje med strojnimi agenti doseči v okviru moštvenih igralnih načinov v Quaku 3. Za štart so se osredotočili na capture the flag, kjer smo lani videli prva njihova poročila o tem. Pred dnevi je dokumentacija dobila odprto peer review objavo v publikaciji Science, ki odpira zanimiv vpogled v napredek v zadnjem letu. S preprostim okrepitvenim učenjem - se pravi načinom, v katerem AI skozi ponavljajoče se igre ohranja vzorce obnašanja, ki ji prinašajo zmago, slabše pa zavrže - se je algoritem po imenu For the Win dokopal do mnogih taktik, ki jih sicer vidimo pri človeških igralcih. Denimo do prijema, kjer bot v situaciji, ko njegov soborec že beži s sovražno zastavo, kampira v sovražni postojanki, da lahko v trenutku, ko se zastavica spet udejanji, le-to takoj zaseže. Zelo zanimiv detajl je še ta, da se je takšno obnašanje razvilo brez kakršnekoli komunikacije med agenti, ki so torej svojo spretnost urili zgolj z opazovanjem svoje okolice. Tako pravzaprav v tem primeru še ne gre za pravo ekipno igranje.

Boti so bili tudi umetno hendikepirani na področjih refleksov in merjenja, da v tem oziru ne bi imeli nepravične prednosti. Tako so bili lahko raziskovalci bolj prepričani, da je njihova superiornost izvirala iz taktičnih in strateških prijemov. For the Win je za trening odigral 450.000 iger, nakar so sledile naključno oblikovane partije s štiridesetimi človeškimi igralci. Ne glede na postavljene ekipe so se boti odrezali občutno bolje od ljudi: tudi najboljši človeški tekmovalci so zmagali le v med 20 in 30 odstotkih iger. Seveda pa je potrebno poleg omeniti, da so za ta test namensko uporabili ljudi s širokega spretnostnega spektra in da še čakamo na dvoboj z uigrano ekipo najboljših meatbagov, kar jih premore civilizacija. V DeepMindu pa For The Win že urijo v preostalih igralnih načini Quaka 3 (velja prebrati njihov celoten povzetek ali si ga ogledati v video obliki).

10 komentarjev

Buddah ::

Ko tole spravijo v realen vojaški svet bo kr scena!

jype ::

Buddah je izjavil:

Ko tole spravijo v realen vojaški svet bo kr scena!
Mhm, talibani bodo nenadoma zmagali.

fikus_ ::

" jo je ena od človeških ekip naštudirala dovolj dobro, da jo je premagala desetkrat "

Strojna pamet le ni tako pametna. Domišljija še vedno zmaga.

vostok_1 ::

Saj smo že večkrat povedali. Ni potrebno biti pametnejši za zmagati nad človekom, zgolj hitrejši.
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

hamez66 ::

Verjetno je pol problem, ker je pri 18 herojih relativno malo različnih kombinacij herojev, z vsakim dodanim se pa to število bistveno poveča. Na podoben način, kot je recimo 9 mestno geslo že bistveno bolj varno od 8 mestnega, 10 mestno pa še nekajkrat bolj in tako naprej. Računska moč, potrebovana za izračun 150 herojev bi bila gromozanska, potem pa ali trpi kvaliteta ai, ali pa so stroški ogromni.

Zgodovina sprememb…

  • spremenilo: hamez66 ()

Vitamin-B ::

Ce bi jaz za trening odigral 450.000 partij, pol bi moja taktika in strategija ziher bili nad nivojem tega AI-ja

AgiZ ::

Počakajte par mesecev, bo AI natreniral tudi teh 100 herojev. Potem ne bo več izgovorov.

Markoff ::

Enkrat sem že napisal, bom še drugič: ko nas bo brute-force mašina stolkla v kečap, se bomo lahko v utekočinjeni obliki do nezavesti prerekali o tem, ali nas je stolkel pravi AI ali samo njegov približek, a rezultat bo približno enak.

Skynet does not concern itself with opinions of ketchup.
Antifašizem je danes poslednje pribežališče ničvredneža, je ideologija ničesar
in neizprosen boj proti neobstoječemu sovražniku - v zameno za državni denar
in neprofitno najemno stanovanje v središču Ljubljane. -- Tomaž Štih, 2021

nekikr ::

Dokler mi Roomba obvisi na preprogi visoki 1cm in mi pošlje obvestilo, da visi na prepadu, bomo ok ;)

kixs ::

To so kot puzzle. Enkrat bo vse sestavljeno...


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

AI AlphaStar dosegel stopnjo velemojstra

Oddelek: Novice / Znanost in tehnologija
64904 (3585) TheBlueOne
»

OpenAI nadgrajuje okrepitveno učenje z evolucijo

Oddelek: Novice / Znanost in tehnologija
135233 (3896) vostok_1
»

Microsoft vlaga milijardo dolarjev v OpenAI

Oddelek: Novice / Ostale najave
139482 (8530) vostok_1
»

V Doti 2 računalnik še ne nadvlada človeka

Oddelek: Novice / Znanost in tehnologija
96689 (4871) bMozart
»

Umetna inteligenca zmaguje tudi v Doti 2

Oddelek: Novice / Ostale najave
3010741 (8336) FrRoSt

Več podobnih tem