Kunstmatige intelligentie blijkt weer makkelijk om de tuin te leiden
Mensen en computers werkten samen om 1213 vragen te bedenken die de meest geavanceerde AI niet kan beantwoorden. Het laat zien hoe onderontwikkeld AI die taal interpreteert nog is.
'Welk Europees land werd na de Tweede Wereldoorlog opgedeeld in een oostelijk en een westelijk deel?' Simpele vraag, toch? Veel mensen zullen meteen weten dat hier om Duitsland gaat. Maar de slimste antwoordencomputers hebben geen idee wat het antwoord is.
Dat ontdekten onderzoekers van de Amerikaanse University of Maryland, die menselijke scriptschrijvers en een transparante AI liet samenwerken om de allermoeilijkste vragen te bedenken. Tenminste, moeilijk voor kunstmatig intelligente algoritmes die proberen taal te interpreteren. (Slimme) mensen kunnen de vragen wel beantwoorden.
Johannes Brahms
Dat is niet toevallig: de vragen zijn gemaakt om onbeantwoordbaar te zijn. De onderzoekers lieten de AI eerst een lijst met quizvragen beantwoorden. Het algoritme is bijzonder, want het vertelt naast het antwoord ook de manier waarop het tot een antwoord kwam. Het voorbeeld dat de onderzoekers noemen: 'Wie componeerde 'Variaties op een thema van Haydn', en was daarbij geïnspireerd door Karl Ferdinand Pohl?'. Een lastige vraag, maar knappe koppen die meedoen aan quizzen als Per Seconde Wijzer of University Challenge weten dit soort dingen. De computer wist het antwoord ook: Johannes Brahms. En dat wist het vanwege de naam Karl Ferdinand Pohl in de vraag; naast het antwoord highlight het algoritme het deel van de vraag dat tot het antwoord leidde.
Die informatie konden de menselijke vragenschrijvers vervolgens gebruiken om de vraag lastiger te maken. Ze vervingen 'Karl Ferdinand Pohl' door 'de archivaris van de Wiener Musikverein'. Dit maakt de vraag voor mensen ook lastiger, maar de beste mensen wisten het antwoord nog steeds. Voor de computer werd het echter te ingewikkeld: hij kon geen link leggen tussen de Wiener Musikverein en Johannes Brahms.
In het algemeen schoten computers op zes verschillende vlakken te kort. Van het niet herkennen van andere bewoordingen van dingen tot het niet goed kunnen redeneren; er schort van alles aan een computerbrein.
Sneller verbanden leggen
Het klinkt misschien flauw om vragen expres te herformuleren tot een computer het niet meer snapt. Maar het legt het fundamentele verschil bloot in taalbegrip van mensen en computers. Mensen kunnen sneller verbanden leggen, improviseren, synoniemen begrijpen, enzovoort. Daar kan nog geen rekenkracht van een machine tegenop.
Dat alles is al langer bekend. Ook het maken van adversarial examples, tests voor AI die expres moeilijk zijn voor computers, bestaat al. Maar de samenwerking tussen mens en AI om het de AI zo moeilijk mogelijk te maken is nieuw. Daarvoor was een algoritme nodig dat transparant is, en 'uitlegt' hoe het tot antwoorden komt. Veel AI's zijn zwarte dozen met ondoorgrondelijke denkpatronen, maar transparantie kan helpen om AI's te verbeteren én om het vertrouwen in een algoritme te vergroten.
Goed gesprek voeren met computer
Quizvragen beantwoorden is niet alleen maar een leuke toepassing van AI. Het test in feite het taalbegrip, en dat is belangrijker voor een heleboel dingen. Denk aan de digitale assistenten zoals Siri of Alexa. Pas als die in staat zijn om alle 1213 vragen die nu te moeilijk zijn voor computers kunnen beantwoorden, zullen ze echt een gesprek met een mens kunnen voeren, denken de onderzoekers.
Beeld: presentatie van het onderzoek. University of Maryland