Onderzoekers van MIT in de Verenigde Staten hebben een nieuw algoritme ontwikkeld dat het gehoor en zicht van een robot koppelt. Zo kunnen robots de wereld beter begrijpen.

Rijdt er een auto langs, dan is die niet alleen te zien, maar ook te horen. Voor mensen is deze koppeling totaal vanzelfsprekend. Zonder er erg in te hebben, leggen we de hele dag door zulke verbanden. Deden we dat niet, dan zouden we de wereld ervaren als een continue stroom van afzonderlijke geluiden, beelden en geuren.

 

Beeld en spraak

Voor een computer ligt dat ingewikkelder. Hoe leert een computer dat het geluid wordt voortgebracht door dat voertuig? Dat er een verband bestaat tussen de opgevangen geluidsgolven en de bewegende pixels die samen een voertuig vormen? En om het nog wat ingewikkelder te maken: dat dit een schoolvoorbeeld is van wat mensen ‘rijden’ noemen?

Onderzoekers van het Massachusetts Institute of Technology (MIT) in de Verenigde Staten hebben nu een systeem ontwikkeld op basis van kunstmatige intelligentie (AI) dat zelf in staat is zulke verbanden te begrijpen tussen beeld, spraak en tekst. Dat kan enorm helpen bij het bouwen van robots die de wereld om hen heen beter begrijpen. Afgelopen week publiceerden ze hun bevindingen.

 

Patroonherkenning

De onderzoekers maakten gebruik van representatief leren. Hierbij gaat een algoritme zelf op zoek naar patronen in de data (videobeelden bijvoorbeeld) die het gevoed krijgt. Datapatronen die vaak voorkomen, zoals het beeld van een keeper die een bal vangt in opnamen van voetbalwedstrijden, worden door het algoritme geclusterd en vormen een representatie: dat schoolvoorbeeld van zo-even.

Naast beelden gebruikten de onderzoekers van het MIT ook tekst en geluid als basis voor het leerproces. Stel je dus voor dat het algoritme niet alleen de beelden van een keepersredding clustert, maar ook de bijbehorende tv-commentaren (‘De keeper vangt hem makkelijk!’) of een transcriptie daarvan.

In plaats van voetbalwedstrijden gebruikten de onderzoekers beelden van mensen die huilen, zingen, jongleren of andere acties uitvoeren met daarbij uitgeschreven of ingesproken beschrijvingen van deze acties.

 

Zowel de rode delen van het videobeeld als de rode delen van de geluidsgolven activeren het codewoord met het label 'jongleren'. Beeld: Met dank aan de onderzoekers. Bewerkt door MIT News

Codewoorden

Bijzonder aan het nieuwe algoritme is dat het duizend codewoorden heeft geleerd om alle representaties samen te vatten. Elk codewoord is gelabeld met een werkwoord dat een actie weergeeft.

Hoewel iedere keepersredding verschilt (de keeper staat net ergens anders, de camerahoek varieert, etc.) kunnen alle reddingen op deze manier wel worden gekoppeld aan hetzelfde codewoord dat het label 'vangen' heeft. Het algoritme leerde zelf welke duizend codewoorden het nuttigst zijn om te gebruiken.

 

Beter begrip

Omdat het algoritme beeld, geluid en tekst gebruikt om acties te representeren, is het beter in staat verschillende zintuigen te koppelen. Dit nieuwe AI-systeem combineert zo ogen en oren en kan zo de wereld beter begrijpen.

In de toekomst kan de techniek wellicht worden gebruikt om robots te maken met een ‘menselijker’ begrip van de wereld. Maar daarvoor moet nog worden onderzocht of het algoritme ook raad weet met de rommelige waarnemingen uit de echte wereld.

 

Openingsbeeld: Max Pixel