AlphaGo Zero se uči brez človeškega zgleda

Matej Huš

21. okt 2017 ob 17:26:29

Ko je AlphaGo lani in letos rutinsko premagoval najboljše igralce goja na svetu, smo se lahko tolažili z dejstvom, da smo ga goja naučili igrati ljudje. AlphaGo je resda premagal najboljšega igralca na svetu, celotno internetno skupnost in korejskega prvaka, toda igre se je naučil z analizo tisočih odigranih partij med najboljšimi človeškimi igralci, potem pa je seveda svoje mojstrstvo izpilil z lastnim preračunavanjem in učenjem. Sedaj je Googlova podružnica DeepMind pokazala, da je za AlphaGo človeštvo povsem nepotrebno. Nova verzija AlphaGo Zero se je goja naučila sama, ne da bi sploh kdaj videla potek kakšne igre.

AlphaGo Zero
je dobil samo pravila igre, potem pa se je igranja učil sam, tako da je igral sam proti sebi. Rezultati so osupljivi, saj je AlphaGo Zero v treh dneh iz popolnega začetnika napredoval do zmogljivosti verzije, ki je lani premagala Leeja Sedola, v 21 dneh je postal boljši od verzije, ki je letos premagala svetovnega prvaka, v 40 dneh pa je postal najboljša umetna inteligenca za igranje goja. Vse to je dosegel sam, ne da bi videl, kako igrajo ljudje. To se je izkazalo za prednost, saj ni bil obremenjen z ustaljenimi vzorci, temveč je razvil nekaj novih, ki jih v preteklosti še nismo videli.

Z drugimi besedami to pomeni, da se je umetna inteligenca v mesecu dni naučila več, kot se je človeštvo v tisočletjih. Trik se skriva v učenju z okrepitvijo, kar je podobno, kot se ljudje učimo voziti kolesa. Z vztrajnim ponavljanjem in izboljševanjem korakoma postajamo čedalje boljši pri neki aktivnosti. AlphaGo Zero je za razliko od predhodnikov uporabljal enostavnejšo nevronsko mrežo, ker je potreboval manj predznanja. O dosežku so napisali tudi znanstveni članek s podrobnostmi.

To še ne pomeni, da nas bodo računalniki premagali povsod, so pa boljši v čedalje več aktivnostih. V goju ljudje bržkone nikoli več ne bomo boljši, se bodo pa vloge zamenjale. Sedaj bodo računalniki lahko učili največje mojstre goja. AlphaGo Zero je že poskrbel za nekaj podobnega, saj je med učenjem odkril nekaj novih načinov igre oziroma potez, ki jih strokovnjaki sedaj preučujejo.