De Nederlandse informaticus dr. Daan Wierstra werkt bij Google DeepMind aan het ontrafelen van het raadsel ‘intelligentie’. ‘Idealiter willen we één enkel algoritme ontwikkelen dat alle uiteenlopende taken uitvoert die het menselijk brein ook kan uitvoeren.’ Hij gebruikt klassieke computerspellen als proeftuin.

De generatie nerds die in de jaren tachtig tot verslaving aan toe Atari-computerspellen speelde, is verslagen. Verslagen door een computeralgoritme met de exotische naam Deep Q Networks. Eind februari lieten onderzoekers van Google DeepMind in een artikel in het wetenschappelijke tijdschrift Nature zien hoe hun algoritme zonder enige voorkennis 49 klassieke Atari-computerspellen, waaronder Pac-man, Pong, Space Invaders en Breakout, leerde spelen. In 23 spellen werd het algoritme beter dan de beste menselijke spelers en in 6 spellen even goed.

Een van de betrokken onderzoekers is informaticus dr. Daan Wierstra, die in 2004 is afgestudeerd aan de Universiteit Utrecht. Binnen Google DeepMind leidt Wierstra de onderzoeksgroep Frontiers, die grenzen probeert te verleggen door verschillende denkrichtingen binnen de kunstma- tige intelligentie met elkaar te combineren. Wierstra was zelf verbaasd dat hun algoritme zo goed presteert in zulke uiteenlopende computerspellen. ‘Ik had het niet verwacht. En al helemaal niet dat het algoritme in sommige spellen beter zou worden dan de beste menselijke spelers. In het spel

Breakout ontdekte ons algoritme een efficiënte truc om het spel te winnen. Die truc heeft een menselijke speler zelfs nooit eerder ontdekt.’ Breakout is een variant op het allereerste computerspel uit de jaren zeventig, Pong. In Breakout moet je niet alleen met een stokje een balletje wegslaan, je moet ook met dat balletje een muurtje steen voor steen zien weg te schieten. Deep Q Networks ontdekte na zo’n vijfhonderd keer spelen dat als je op een bepaalde plek en onder een bepaalde hoek met een bepaalde, hoge snelheid tegen het balletje slaat, er een tunnel aan de zijkant van het muurtje ontstaat. Het balletje kan vervolgens door het tunneltje heen bewegen en heen en weer kaatsen tussen plafond en muurtje. Eén voor één verdwijnen een boel stenen en het spel is dan zo uitgespeeld.

De onderzoekers lieten deze vondst zien aan een van de beste menselijke spelers. ‘Hij raakte geïrriteerd, omdat hij het zelf nooit had ontdekt’, vertelt Wierstra.

Voorgeprogrammeerd

Wat is het bijzondere aan Deep Q Networks? In 1997 won een supercomputer toch al met schaken van de beste menselijke speler op dat moment, Garry Kasparov? En in 2011 versloeg supercomputer Watson toch ook al de twee beste menselijke spelers in de veeleisende kennisquiz Jeopardy? ‘Die twee systemen zijn bijna 100 % met de hand gemaakt’, reageert Wierstra. ‘Ze hebben heel weinig zelf geleerd. Het bijzondere van ons algoritme is dat we het helemaal niet hebben voorgeprogrammeerd voor een bepaald spel. Het gedraagt zich als een pasgeboren baby. De enige invoer bestaat uit pixels en spelscores. Aan het begin doet het algoritme zomaar wat. Verbetert de score, dan telt dat als een beloning. Verslechtert de score, dan telt dat als een straf.’

Het algoritme leert dus via beloning en straf, analoog aan de manier waarop het dopaminesysteem in de menselijke hersenen werkt. Doen wij mensen iets dat goed is voor het overleven van ons als individu of soort – bijvoorbeeld seks of eten – dan beloont het brein dat door het geluksstofje dopamine aan te maken. Toch is dit leren via beloning en straf alleen onvoldoende, legt Wierstra uit. ‘De computer kan namelijk niet alle mogelijke toestanden van een spel doorrekenen, want dat zijn er veel te veel. Hij moet dus leren om te generaliseren aan de hand van een beperkt aantal voorbeelden. Daarvoor gebruiken we zogeheten deep learning.’

Deep learning is een vorm van leren die enigszins is gebaseerd op het leren in het menselijk brein. Het idee is dat een netwerk van kunstmatige neuronen in lagen wordt verdeeld. Elke laag neemt een deel van de patroonherkenning voor zijn rekening, bijvoorbeeld de detectie van randen, kleuren of bewegingen. Zo werkt het visuele systeem in de menselijke hersenen ook. ‘In 2006 vond de deep learning- revolutie plaats’, zegt Wierstra. ‘Neurale netwerken bestonden al veel langer, maar pas in 2006 vielen verschillende puzzelstukjes op hun plaats. De computerkracht was toen groot genoeg om netwerken van duizenden neuronen met miljoenen parameters te simuleren. En de netwerken werden diep door tot wel tien lagen te combineren. Inmiddels halen we zelfs bijna twintig lagen.’

Sindsdien is deep learning met veel succes toegepast voor patroonherkenning van foto’s, video’s en spraak. En nu dus in Atari-spellen. Voor Wierstra en zijn collega’s bij Google DeepMind zijn deze spellen voor de kunstmatige intelligentie wat fruitvliegjes voor biologen zijn: simpele modelorganismen die hopelijk een springplank vormen naar een volledig begrip van de mens. ‘Het uiteindelijke doel van Google DeepMind is het oplossen van het raadsel intelligentie’, zegt de Nederlandse informaticus. ‘Idealiter willen we één enkel algoritme ontwikkelen dat alle uiteenlopende taken uitvoert die het menselijk brein ook kan uitvoeren. Een schaakcomputer kan alleen maar schaken. Maar een drie jaar oud kind is intelligenter dan de beste computer: het kan rondrennen, spelen, met zijn ouders praten enzovoorts. Dat is het type algemene intelligentie dat wij proberen te bouwen. En dat is een langetermijnproject met een tijdshorizon van meer dan twintig jaar.’

Hoewel Wierstra daar officieel niets over mag zeggen, is het duidelijk dat Google het onderzoek van DeepMind toepast of gaat toepassen bij het herkennen van foto’s en video’s, bij spraak, vertalingen, zoekopdrachten, sociale netwerken en gerichtere advertentieverkoop. Ook in Google’s zelfrijdende auto? ‘Geen commentaar’, zegt Wierstra veelzeggend.

DeepMind werd in 2011 in Londen opgericht door Demis Hassabis, Shane Legg en Mustafa Suleyman. Wierstra was bevriend geraakt met Shane Legg toen ze samen in Zwitserland onderzoek deden. Ze hadden al vaker gesproken over het starten van een bedrijf dat zich toelegt op kunstmatige intelligentie. Toen Legg en zijn twee Engelse kompanen de financiering rond hadden, werd Wierstra als eerste wetenschappelijk medewerker ingehuurd. In 2014 werd DeepMind gekocht door Google voor naar schatting ruim zeshonderd miljoen euro.

‘Bij DeepMind hebben we een unieke mix tussen de academische wereld aan de ene kant en het bedrijfsleven aan de andere kant’, vertelt Wierstra. ‘Wij hebben ’s werelds beste machine learners in dienst, verdeeld over alle mogelijke onderzoeksrichtingen binnen de kunstmatige intelligentie. Wij werken nooit aan één specifieke toepassing, zoals de meeste bedrijven doen. Wij gaan ook niet voor grote aantallen wetenschappelijke publicaties. Wij willen onderzoek doen dat de kunstmatige intelligentie op de lange termijn fundamenteel vooruit helpt.’

Doemscenario's

Hoe ziet Wierstra de toekomst van kunstmatige intelligentie? Maakt hij zich zorgen over de doemscenario’s dat kunstmatige intelligentie de mensheid zal overwoekeren? ‘We zijn net in staat om Pac-man te spelen. Dat vind ik geweldig interessant en dat gaat allerlei nuttig toepassingen opleveren. Maar laten we het wel in perspectief plaatsen. Het is geen doorbraak die computers een mensachtige intelligentie bezorgt. Als onderzoeker zie ik hoe langzaam de vooruitgang in de praktijk is: zeker niet exponentieel. De ontwikkelingen van de komende vijf jaar in de kunstmatige intelligentie kan ik redelijk goed voorspellen. Maar wat er daarna gebeurt, weet niemand. Het is echt niet zo dat onze systemen opeens intelligent worden. Maar ik ben bang dat dit soort realisme niet zo goed verkoopt als de doemscenario’s.’ (Bennie Mols)