Strojna pamet si je podredila še poker

Jurij Kristan

13. jul 2019 ob 08:23:06

Strojni algoritem Pluribus, ki so ga razvili na Univerzi Carnegie Mellon v sodelovanju s Facebookom, je v verziji pokra Texas hold'em, ki je bila doslej za AI prevelik zalogaj, premagal petnajst profesionalnih igralcev, med njimi nekaj najboljših na svetu. Dogodek predstavlja pomemben mejnik za umetno inteligenco, Pluribus pa je tako učinkovit, da pomeni resno nevarnost za spletno igranje pokra, zaradi česar izvorne kode niso razkrili.

Da računalniški algoritmi premagujejo najboljše ljudi v nekaterih namiznih igrah, ni novost. Toda šah in go sta igri, kjer je celotno igralno polje vidno obema igralcema. V tem oziru je poker za AI veliko večji izziv, saj se kart nasprotnikov ne vidi, za nameček pa soigralci tudi blefirajo in se mora stroj zato soočati ne le s pomanjkljivimi, temveč celo zavajajočimi informacijami. Kljub temu je umetna inteligenca v pokru v zadnjih letih beležila hiter napredek, predvsem po zaslugi laboratorija na Univerzi Carnegie Mellon v Pennsylvaniji. S tamkajšnjim botom Libratus so predlani prvič nadigrali pokeraške profesionalce, toda zgolj v inačici za dva igralca. Realno se turnirski poker igra v šestero, kar za računalnik položaj močno zakomplicira in celo avtorja Libratusa sta menila, da bo trajalo dosti let, preden bodo bote potisnili čez to oviro. V resnici sta potrebovala zgolj dve leti.

Tuomas Sandholm in njegov doktorski študent Noam Brown, ki je medtem odšel v Facebookov AI oddelek, sta Pluribus zasnovala kot neposredno nadgradnjo Libratusa, toda s pomembnimi spremembami. V osnovi bot še vedno temelji na okrepitvenem učenju skozi igre s samim seboj, podobno kot večina ostalih. Novost pa predstavlja serija poenostavitev, s katerimi sta Sandholm in Brown močno pospešila njegovo odločanje. Namesto da bi Pluribus preračunaval vse možne kombinacije in izide iger, kar je v razmerah nepopolnih informacij grozljivo zamudno, si napravi delne modele, s katerimi hitro primerja stanja v igri. Če je Libratus za delovanje potreboval stotnijo štirinajstjedrnih Intelovih strežniških procesorjev, rabi Pluribus samo še dva - in je obenem hitrejši.

Spopad z ljudmi je potekal v najbolj razširjeni verziji pokra - no limit Texas hold'em. V prvem režimu je Pluribus odigral 10.000 iger proti trinajsterici profesionalcev, od katerih je vsak doslej že zaslužil čez milijon ameriških dolarjev. V drugem načinu se je peterica botov v po pet tisoč igrah pomerila s Chrisom Fergusonom, šestkratnim zmagovalcem serije turnirjev World Series of Poker, in Darrenom Eliasom, rekorderjem v številu naslovov serije World Poker Tour. V obeh primerih je algoritem pometel z ljudmi in to na precej zanimive načine. Pluribus se je sicer spontano naučil večino prijemov, ki so že ustaljeni med igralci, hkrati pa presenetil s čisto samosvojimi, kot so povsem pobezljane vrednosti pri stavah, s katerimi je zmedel nasprotnike. Nasploh se je skozi dvanajstdnevni turnir odlikoval predvsem v nepredvidljivosti, kar je lastnost, ki krasi tudi najboljše človeške igralce.

Bot je tako dober, da ga avtorja ne želita spustiti v divjino, saj obstaja resna nevarnost, da bi povsem destabiliziral področje igranja spletnega pokra. S tem je hkrati konec izzivov za AI v okviru te igre s kartami, toda ker je pridobila sposobnosti, ki jih računalnik doslej še ni imel, se zgodba za takšne vrste algoritme šele zares začenja. Strojna inteligenca, ki se zna soočati z nezadostnimi informacijami nasproti množici drugih agentov, ima ogromen potencial za rabo v finančnem sektorju in pri avtomatiziranih dražbah; v vojski za nadzor robotov; v medicini za iskanje pristopa v boju proti odpornim bakterijam in virusom; pa celo v avtomatiziranih diplomatskih pogajanjih.