Google-computer leert zichzelf schaken

De kunstmatige intelligentie (AI) van Deepmind (onderdeel van Google) die aanvankelijk bedoeld was om het bordspel Go te leren, blijkt ook te kunnen schaken. Binnen een paar uur was het algoritme al beter dan een van de meest geavanceerde schaakcomputers ter wereld.

Deepmind kwam deze week met een (nog niet in een vakblad verschenen) wetenschappelijk artikel (pdf-bestand) over de nieuwe prestaties van het computerprogramma. Met een nieuwe naam en een net iets andere werkwijze wist de nieuwe AI AlphaZero zichzelf schaken op hoog niveau te leren, met de regels van het schaakspel als enige voorkennis. Het programma deed hetzelfde voor Shogi, een Japanse variant van schaak.

AlphaZero is een variatie op AlphaGo Zero, de AI die twee maanden geleden zichzelf al het aziatische bordspel Go leerde (lees: 'Zelflerende Go-computer is nog beter'). Dát was dan weer een variatie op de oorspronkelijke AlphaGo die in 2016 voor het eerst een menselijke speler versloeg.

Breed inzetbaar

Bij elke nieuwe versie lijkt het computerprogramma van Google Deepmind weer een beetje slimmer te worden. Het knappe aan AlphaZero is de brede inzetbaarheid. De prestaties van AlphaGo waren weliswaar groots, er was weinig toepassing van de opgedane kennis buiten het Go-speelbord.

Nu blijkt dat kunstmatige intelligentie zichzelf verschillende spellen kan leren. Het enige dat ze nodig heeft zijn de regels van het spel. Daar valt bijvoorbeeld ook de vorm van het spelbord en de stukken onder. Die basiskennis moet dus wel ingeprogrammeerd worden; helemaal onafhankelijk iets leren zit er voor AlphaZero niet in. Maar als het de regels kent, wordt het binnen een paar honderd duizend potjes (die in een paar uur uitgevoerd worden) de beste speler in het universum.

Het algoritme kiest, aan de hand van de regels, een zet om te doen. Vervolgens evalueert het de uitkomst van die zet en neemt dat mee voor de toekomst. Langzaam leert het algoritme op die manier wat sterke zetten zijn en wat niet. Als het maar genoeg zetten doet heeft het op een gegeven moment de kennis en kunde om iedereen te kunnen verslaan, zo bleek uit dit experiment.

Menselijker

Na ongeveer 300.000 'stappen' (het is onduidelijk of dit zetten of potjes zijn) was AlphaZero beter (volgens de Elo-rating, een maat voor sterkte van een schaakspeler) dan Stockfish, een schaakprogramma dat in 2016 een toernooi won van andere schaakcomputers. Stockfish werkt op de 'ouderwetse' manier: het berekent simpelweg alle mogelijke zetten, kijkt wat de uitkomst is en bepaalt zo de beste zet.

AlphaZero laat volgens de makers 'menselijker' gedrag zien: het bekijkt niet alle zetten, maar denkt beter na over de zetten die waarschijnlijk het beste zijn. Minder rigoreus dan de normale schaakcomputers dus, maar niet minder succesvol.

Is een kunstmatig intelligent algoritme dat meerdere dingen kan het definitieve begin van het einde voor de menselijke dominantie? Dat valt te bezien; schaak en Shogi zijn beiden aanzienlijk simpeler dan Go, dus lijkt het logisch dat een AI die Go aan kan, zijn hand niet omdraait voor simpeler spellen. Maar de snelheid waarmee AlphaZero zichzelf de spellen aanleerde, én het feit dat het de beste schaakcomputers overtreft, laat wel eens te meer zien hoeveel krachtiger AI kan zijn dan traditionele brute rekenkracht.

Beeld: PIRO4d