Computer wint nu ook met poker

Een kunstmatige intelligentie van het Amerikaanse Carnegie Mellon heeft gisternacht voor het eerst een pokertoernooi tegen professionele menselijke spelers gewonnen. De AI Libratus pakte na een indrukwekkende 120.000 rondes ruim 1,7 miljoen dollar aan fishes.

Het is opnieuw een mijlpaal voor kunstmatige intelligentie. Steeds vaker weet deze techniek mensen te kloppen bij ingewikkelde spellen. In de jaren 80 was het schaken, onlangs Go en nu is poker aan de beurt. Dat een AI ook in poker mensen de baas is kwam voor veel mensen als een verrassing. het is immers een spel dat draait om strategie, spelinzicht en, volgens sommigen het belangrijkst, bluffen en het doorzien van de bluf van een tegenstander.

Dit zijn allemaal zaken waar computers lastig mee om kunnen gaan. Het lezen van menselijke emotie gaat op een basaal niveau (‘verdrietig’, ‘blij’, ‘boos’), maar een subtiele gezichtsbeweging die op een bluf duidt (een ‘tell’, in pokerjargon) zal een computer niet herkennen.

Rekenen

Dat is dan ook niet hoe Libratus werkt. De maker van de AI, Tuomas Sandholm, wist dat een reactieve AI, die na elke zet van een tegenstander probeert in te schatten welke kaarten hij of zij heeft, niet zou werken. Dus focuste hij op het verbeteren van de reken- en speelvaardigheden van de computer zelf. Bits en chips zijn immers veel beter dan mensen in het snel uitrekenen van mogelijke kaartcombinaties. Sandholm wist met die sterke punten van de computer zijn slag te slaan.

Het resulteerde in een kunstmatige intelligentie die tijdens het spel constant aan het rekenen was. De variant van poker die hier werd gespeeld, no-limits Texas Hold ‘Em, geeft elke speler twee kaarten in de hand. Vervolgens worden er, na een inzetronde, drie kaarten open op tafel gelegd. Daarna weer inzetten, dan nog kaart op tafel, nóg een keer inzetten en dan de laatste kaart op tafel. Met de vijf kaarten op tafel en twee in de hand moeten spelers een zo waardevol mogelijke combinatie maken.

Libratus sloeg keer op keer zijn slag in de laatste twee inzetronden. Hij berekende hoe groot de kans op winst was en kwam zo met een maximale inzet voor die ronde. Door telkens dat berekende bedrag in te zetten, wist de AI langzaam maar zeker te winnen. En langzaam ging het: het toernooi duurde van 11 tot 30 januari en besloeg 120.000 potjes. Die hoeveelheid was in zekere zin nodig om de computer te laten winnen. Een eerder toernooi met 80.000 potjes werd niet gewonnen door de AI. Omdat de computer een tactiek heeft die gemiddeld voor winst zorgt, zijn er grote aantallen spellen nodig om dat gemiddelde doorslaggevend te maken.

Strategie in de avond

De vier menselijke tegenstanders, allen afkomstig uit de professionele pokerwereld, speelden tegen Libratus op computers. Ze mochten met z’n vieren samenwerken om hun robottegenstander te verslaan, en deden dat gretig. Elke avond kwamen ze samen om te bespreken wat hen opviel aan het computerspel, waar zwakheden zaten en hoe ze die konden uitbuiten. Zo ontdekten ze dat Libratus tijdens de laatste twee ronden agressiever inzette dan daarvoor. Dus besloten ze hem te pakken op de vroege rondes.

Wat ze wellicht niet wisten was dat ook Libratus elke avond zijn tactieken verfriste. Aan de hand van de speeldag leerde de AI nieuwe dingen, die in de nacht werden geïntegreerd in zijn speltechniek. De opgedane kennis kwam bovenop de ervaring die Libratus al voor het toernooi had opgedaan had door 15 miljoen uur te trainen. De AI leert met behulp van deep learning, een programmeertechniek waarbij een (super)computer input gebruikt om via een aantal lagen een les te trekken uit data.

Het resulteerde in een klinkende overwinning. Terugkijkend maakten de spelers van vlee sen bloed geen enkele kans. Al vanaf dag 1 lag de computer voor, en gaf de voorsprong daarna niet meer op. Uiteindelijk wist de computer met zijn totalwinst van 1,7 miljoen dollar aan fishes er 80.000 dollar meer binnen te halen dan de nummer 2 van het toernooi.

Breed inzetbaar

Volgens de maker is Libratus niet alleen maar goed in pokeren. In tegelstelling tot AlphaGO, de computer die helemaal geprogrammeerd was om het ingewikkelde aziatische bordspel te spelen, is het ontwerp van Libratus breed inzetbaar. Het kan veel problemen met ‘imperfecte informatie’ oplossen. Dat zijn problemen waarin niet alle variabelen bekend zijn. In poker weet de AI bijvoorbeeld niet de kaarten van de tegenstander, maar moet hij toch een optimale strategie bedenken. Zoiets zou ook kunnen werken voor het bedenken van medicijnen tegen resistente virussen, waarbij niet precies bekend is hoe het virus het best bestreden kan worden.

Beeld: Images Monkey