Metin algoritem zna igrati Diplomacy

Jurij Kristan

26. nov 2022 ob 11:16:06

V Meti so razvili strojni algoritem Cicero, ki zna strateško igro Diplomacy igrati na človeškem nivoju - in to organsko, z običajno tekstovno komunikacijo z drugimi ljudmi.

Računalniška pamet že nekaj časa dobro obvlada igranje strateških iger z determinističnimi razmerami na igralni površini, kot sta šah in go, v zadnjih letih pa dela dolge korake tudi pri igrah z višjo stopnjo negotovosti, na primer zaradi "megle vojne" v Starcraftu. Prav poseben izziv, ki je doslej veljal za nepremostljivega, pa je bila igra Diplomacy, kjer se do sedem igralcev pomeri v zavzemanju ozemlja, podobno kot pri Risku, pri čemer je uspeh odvisen predvsem od sklepanja kratkotrajnih, oportunističnih zavezništev. Računalnik mora torej na nek način prepoznati človeško obnašanje in motive v takšnih situacijah, za nameček pa tudi odlično komunicirati, če naj ga ljudje v spletnih partijah ne prepoznajo. Metin laboratorij za strojno inteligenco je sedaj predstavil algoritem Cicero, ki je v spletni različici igre, webDiplomacy.net, statistično celo presegel povprečnega človeškega igralca. Dosežek so popisali tudi v reviji Science.

Cicero pomeni združitev dveh precej različnih strojnih agentov v enega; na eni strani strateškega, ki odloča o ciljih ter odločitvah, ki naj bi do njih pripeljale, pa na drugi strani sporazumevalnega, ki je zgrajen na temelju modernih velikih jezikovnih modelov na bazi transformerjev, kakršen je algoritem GPT-3. Slednjega so tudi dodatno trenirali na 40.000 igrah webDiplomacyja. Tako zna ne zgolj določiti, po kateri poti zavzeti čimveč ozemelj na igralnem polju, temveč tudi izrabljati klasične človeške metode v pogajalstvu, od vztrajne gradnje zaupanja do hladnega tehtanja koristi in tveganj. Pri tem je ena njegovih poglavitnih prednosti pred človekom ta, da je zelo konsistenten, saj ne pozna ne želje po maščevanju ne usmiljenja, ki običajno sredi partije spreminjata odzive človeških igralcev. Posledično znajo biti tako pozitivne kot negativne plati tovrstnih algoritmov zelo daljnosežne. Na eni strani jih bo mogoče uporabljati za učenje, napredno sporazumevanje s stroji in videoigre. Na drugi si res ni težko predstavljati avtomatiziranih postopkov za prevare in manipulacije. Avtorji so sicer kodo že dali na razpolago na GitHubu.