21 december 2018

Computer leert kijken als een mens

Amerikaanse onderzoekers hebben een computer ontwikkeld die op dezelfde manier voorwerpen ontdekt en identificeert als mensen dat doen. Het ontwikkelen van zelflerende systemen zou zo een stuk eenvoudiger worden.

Het nieuwe systeem, ontwikkeld aan de UCLA Samueli School of Engineering en Stanford University, borduurt voort op 'computer vision'-technologie, die computers in staat stelt plaatjes te herkennen. Het vormt een belangrijke stap in de richting van kunstmatige intelligente systemen die zelf kunnen leren, intuïtie ontwikkelen, beslissingen kunnen nemen op basis van 'verstand' en op een menselijke manier met mensen kunnen samenwerken.

Volledig beeld

Er zijn al vergelijkbare systemen en die worden ook steeds beter in het herkennen van objecten op een afbeelding, maar die kunnen alleen zien wat hun door mensen is geleerd. Zelfs de beste computer vision-systemen zijn nog niet in staat om te bedenken hoe het hele object eruitziet als ze slechts enkele fragmenten te zien krijgen. De systemen raken bovendien gauw in de war als het voorwerp is gefotografeerd op een vreemde plek. Mensen hebben er geen enkele moeite mee een hond te herkennen als die is gefotografeerd achter een stoel, met slechts de pootjes en oren zichtbaar, maar computersystemen laten het dan meestal afweten. Ze zijn immers niet in staat zich een volledig beeld te vormen van de hond achter die stoel.

De nieuwe methode, deze week beschreven in het tijdschrift Proceedings of the National Academy of Sciences (PNAS), vindt daar een oplossing voor. Eerst breekt het systeem een afbeelding op in kleine fragmenten, 'viewlets' in de terminologie van de onderzoekers. Vervolgens leert de computer hoe al die 'viewlets' samen het volledige object vormen. En als laatste kijkt het naar andere voorwerpen op de foto, die mogelijk relevant zijn bij het herkennen en identificeren van het hoofdobject.

Virtuele replica

Om het nieuwe systeem te helpen met leren, besloten de computerwetenschappers het onder te dompelen in een virtuele replica van de mensenwereld. 'Het internet biedt twee dingen die een computer vision-systeem kan helpen om te leren als een mens', zegt Vwani Roychowdhury, hoogleraar elektro- en computertechniek aan de University of California in Los Angeles (UCLA) en hoofdauteur van de publicatie. 'Eén is de enorme hoeveelheid afbeeldingen die er te vinden zijn van eenzelfde object. En twee: al die objecten worden afgebeeld vanuit talloze hoeken – half verstopt, vanuit de hoogte, in close-up – en bovendien in talloze settings.

'Al vanaf onze prilste jeugd leren we dingen te herkennen doordat we er talloze voorbeelden van zien, in vele uiteenlopende contexten', zegt Roychowdhury in een persbericht van UCLA. 'Die manier van leren is een belangrijk kenmerk van ons brein en het helpt ons om een goed beeld te vormen van onze wereld waarin alles op functionele wijze verbonden is.'

Zonder training

De onderzoekers testten het systeem met 9.000 afbeeldingen, met daarop zowel fragmenten van mensen als van andere objecten. Het platform bleek in staat om zich een gedetailleerd beeld te vormen van het menselijk lichaam, zonder dat de afbeeldingen specifiek gelabeld waren. Ook motorfietsen, auto's en vliegtuigen bleek het systeem minstens even goed te herkennen als eerdere computer vision-systemen, maar dan zonder dat daar jarenlange training aan was voorafgegaan.

Foto: UCLA Samueli School of Engineering