AlphaZero igra šah, go in šogi

Matej Huš

8. dec 2017 ob 08:32:15

Googlova podružnica DeepMind je predstavila novo generacijo svoje umetne inteligence, ki so jo poimenovali AlphaZero in je pometla s predhodniki. V enem samem dnevu se je naučila šaha, goja in šogija bolje od vse dosedanjih programov, ki so tako ali tako že zdavnaj premagali ljudi.

Spomnimo, da je AlphaGo premagal tudi svetovnega prvaka v goju in si pridobil naziv najboljšega igralca goja na svetu. Oktobra so razkrili obstoj njegovega naslednika AlphaGo Zero, ki se je učil drugače. Ni si ogledal nobenih odigranih partij, temveč je poznal le pravila in se potem učil tako, da je igral proti sebi. V dobrem mesecu je postal najboljši igralec goja na svetu, boljši tudi od predhodne verzije programa. Sedaj je tu AlphaZero (za izbiranje imen v DeepMindu res nimajo občutka), ki je še boljši in hitrejši.

AlphaZero se je od neukega programa v osmih urah prebil do takšnega mojstrstva, da je ugnal celo AlphaGo Zero. To pomeni, da je v osmih urah postal najboljši igralec goja. Potem se je odločil naučiti še šah in v štirih urah prispel do nivoja, da premaga najboljši šahovski program Stockfish. V samo dveh urah pa se je naučil še dovolj šogija, da je premagal tudi najboljše bote s tega področja. V enem samem dnevu je torej AlphaZero obvladal tri zelo kompleksne igre, za katere smo še do nedavna menili (za šah le do leta 1997), da jih zaradi obilice možnih potez in kombinacij računalniki ne bodo nikoli igrali bolje od ljudi.

Posebej strašljivo je dejstvo, da AlphaZero ni imel nobenih empiričnih podatkov o odigranih igrah, taktikah in strategijah. Poznal je le osnovna pravila, potem pa je sam v enem dnevu prišel do stopnje, za katero smo ljudje potrebovali več kot tisoč let. Ko je igral s Stockfishem, ki je bil doslej pojem šahovske popolnosti, je dobil 25 iger in remiziral 25-krat, kadar je začel kot beli. S črnimi figurami je dobil tri partije in remiziral 47-krat.