Kako smo letos izgubili še v pokru

Matej Huš

26. dec 2017 ob 20:01:24

V začetku leta je umetna inteligenca z imenom Libratus na turnirju v pokru pometla s človeško konkurenco in prepričljivo ugnala štiri velemojstre. Za razliko od goja, šaha in podobnih iger je poker igra z nepopolnimi informacijami, kjer je pomemben sestavni del tudi blefiranje, kar je za računalnike velik problem. Libratus, ki je tekel na 15 milijonih jeder, se je problema lotil tako, da je sam poizkušal igrati čim popolneje, ni pa se osredotočal na poteze nasprotnikov. Minuli teden so raziskovalci, ki so Libratus razvili, objavili tudi znanstveni članek v Science, v katerem so opisali podrobnosti, kako je Libratus deloval.

Profesor na Carneige Mellon University Tuomas Sandholm in njegov doktorski študent Noam Brown pojasnjujeta, kako je Libratus v 20-dnevnem turnirju v 120.000 partijah ugnal štiri vrhunske človeške igralce, ko so mu nasproti stali Jason Les, Dong Kim, Daniel McCauley in Jimmy Chou. Libratus je bil ves čas v vodstvu, torej že od samega začetka, in ni vmes niti za trenutek popustil. Še najbližje je bilo 6. dan tekmovanju, ko se je Libratusu malo zalomilo, a je takoj za tem zelo povečal naskok in prepričljivo obdržal vodstvo do konca.

Poker ima okrog 10161 možnih kombinacij, kar je bistveno več kot je vseh atomov v vidnem vesolju (1080). Ker je to preveč, da bi bilo obvladljivo s surovo silo, je Libratus podobne igre obravnaval skupaj, ter tako število zmanjšal na znosnih 1013. Potem je oblikoval natančne strategije, kako bi odigral začetne poteze pri posameznih igrah, in približne strategije za končne korake. Ko se je igra bližala koncu, je izbrusil še končne korake za relevantne igre. Tretja strategija, ki jo je Libratus uporabljal, je bila izdelava modela, kako je njegova igra delovala proti človeškim soigralcem (doslej smo namreč govorili le o idealnih potezah). Če so ljudje storili nekaj nepredvidljivega, morebiti tudi slabega, je Libratus to vključil v svoje modele.

Strnemo torej lahko, da je imel Libratus tri algoritme: enega za splošno strategijo celotne igre, enega za strategijo konkretne situacije in korekcijskega, ki je upošteval odziv igralcev in je odpravljal šibkosti, ki bi jih ljudje videli v njegovi igri, ter izkoriščal njihove šibkosti. Libratus je uporabljal 1,35 petaflops in tekom turnirja porabil 19 milijonov ur-jeder računske moči.

Avtorja poudarjata, da gre za splošno umetno inteligenco, ki ni omejena le na igranje pokra (kot je bil AlphaGo omejen le na go). Ker je tudi v resničnem svetu cel kup informacij ne znan, podobno kot pri pokru, je to logično in pričakovano.