Onderzoekers van het Amerikaanse Massachusetts Institute of Technology (MIT) hebben een kunstmatig intelligent systeem getraind om geluid te vinden bij stille beelden. Met beelden van drumstokjes die op allerhande objecten worden geslagen, leerde het systeem welk geluid bij welke situatie past.

Geluidsherkenning is volgens de makers een belangrijke stap naar andere vormen van computerintelligentie. Als een slimme computer weet welk geluid een stoeptegel maakt als die wordt aangetikt met een drumstok, weet hij immers veel meer: hoe hard de tegel is, wat er gebeurt als je erop loopt, en misschien zelfs of het een plat of grillig oppervlak is. Daarom is geluid een goede leerschool voor omgevingsherkenning.

De onderzoekers namen video's op waarin ze met een drumstok losgingen op een scala aan verschillende materialen: struiken, tegels, putdeksels, boomstammen, leren banken - alles wat ze konden vinden. Ze gebruikten verschillende technieken, van snel tikken tot langzaam schrapen, om verschillende geluiden te maken. Die video's diende als trainingsmateriaal voor een kunstmatig brein, dat zich middels deep learning meester maakte van de beelden en geluiden.

 

 

Menselijk denken

Deep learning is een techniek die steeds populairder wordt onder onderzoekers op het gebied van kunstmatige intelligentie. Computers leren daarin beelden of geluiden om te zetten in abstracte vormen waarmee ze uit de voeten kunnen.

In plaats van een simpele weg van A naar B (een struik is groen -> ik zie groen -> dit is een struik) leert een kunstmatig brein met deep learning ingewikkeldere, subtielere manieren om dingen te herkennen. De resultaten van deep learning spreken vaak tot de verbeelding, omdat computers een menselijk voorstellingsvermogen lijken te krijgen.

 

Duizend video's

Zo is het ook bij dit Visual Indicated Sounds System (Vis) van het MIT. Na een training van 1000 videos met daarin 46 000 verschillende geluiden was het kunstmatige intelligente systeem klaar om geluiden te voorspellen. Dankzij de training kende hij alle geluiden die bij de video's hoorde, dus was het alleen nog zaak om het goede geluid bij het goede beeld te zoeken. Niet eenvoudig, want naast het materiaal moest ook de beweging van de drummer worden vastgesteld.

Uiteindelijk presteerde het systeem lang niet slecht. Toen de onderzoekers de gesimuleerde geluiden over de video plakten en die aan mensen lieten zien, hadden de respondenten in 40 % van de gevallen niet door dat het geluid van de computer kwam.

foto: Geluidscentra in het brein (bron Wikimedia Commons).

 

Vond je dit een interessant artikel, abonneer je dan gratis op onze wekelijkse nieuwsbrief.