9 april 2025

Gedachten omzetten in spraak gaat (bijna) vloeiend

Knappe prestatie: ingenieurs in de VS hebben een apparaatje ontwikkeld dat gedachten via een spraakcomputer omzet in redelijk klinkende zinnen. De secondenlange vertraging die er voorheen was, is bijna verdwenen.

Het is het vakgebied van de brain-computer-interfaces, apparaatjes die de verbinding leggen tussen het menselijke brein en een computer. Dat kan zinvolle toepassingen opleveren.

Nauwelijks vertraging

Een verlamd persoon zijn spraakvermogen teruggeven bijvoorbeeld. Onderzoekers van de University of California, uit Berkeley en San Francisco, slaagden erin om een vanaf de nek verlamde proefpersoon via een spraakcomputer te laten praten, met nauwelijks vertraging. Ze beschrijven de details van hun onderzoek in een artikel in het wetenschappelijke tijdschrift Nature Neuroscience.

Elektrische stroompjes

Dat werkt als volgt. De proefpersoon, Ann genaamd, kreeg een gaatje in haar schedel, waar het onderzoeksteam draadjes doorheen leidde naar een rijtje elektroden die in de motorische cortex kwamen te zitten. Dit is het gebied van het brein dat bewegingen coördineert. Het idee is dat de proefpersoon probeert om woorden uit te spreken, en dat die pogingen leiden tot elektrische stroompjes in de motorische cortex.

Woorden uit de luidspreker

Normaal gesproken sturen die signalen de spieren aan die voor spraak zorgen, met name rond de mond en stembanden, maar in dit geval pikt het rijtje elektroden de neurale activiteit op. Via de draden gaan de signalen naar een blokje op het hoofd van Ann, dat de gegevens draadloos naar een computer stuurt. Daar wordt de breinactiviteit vertaald in woorden die uit de luidspreker klinken en een zin vormen.

Echt praten met een ander mens

Nieuw is dat dit proces – van denken aan een woord totdat het geluid uit de luidspreker komt – maar een seconde duurt. Bij eerder onderzoek van deze groep duurde dat acht seconden, een periode die zo lang is, dat de gebruiker nauwelijks het idee heeft echt een gesprek te voeren. Bij de nieuwe, verbeterde aanpak is dat wel het geval. Ook kan de gebruiker gewoon doorgaan met het vormen van een zin; de audio wordt echt gestreamd. ‘Het voelt als in realtime praten met een ander mens’, zei Kip Ludwig, directeur van het Wisconsin Institute for Translational Neuroengineering tegen de medische nieuwswebsite STAT News. ‘Die natuurlijke communicatie is enorm belangrijk voor de mentale gezondheid van mensen. Iemand raakt nog meer geïsoleerd als hij op een niet-natuurlijke manier, namelijk met grote vertraging, moet communiceren.’

Wat dit oplevert, is te zien in deze video:

A streaming brain-to-voice neuroprosthesis to restore naturalistic communication

De spraak die uit de computer komt is duidelijk nog niet perfect, maar het is goed voorstelbaar dat na extra training begrijpelijke zinnen gevormd worden. De proefpersoon uit de studie haalt met dit systeem gemiddeld 47,5 woorden per minuut.

AI-model

Opvallend detail: er is geen stemgeluid van de proefpersoon beschikbaar om het algoritme van de spraakcomputer mee te trainen. Ze kan immers niet meer praten. Het knappe is dat de onderzoekers dit weten te ondervangen, met AI. Een AI-model dat tekst naar spraak kan omzetten, combineerde een algemene computerstem met audio-opnamen van Ann van voor haar ongeluk. ‘Wanneer we de uitvoer decoderen, klinkt het dus echt als haar’, zegt mede-auteur Cheol Jun Cho, die promoveert aan de universiteit in Berkeley, in een persbericht.

Doorbraak

De nieuwste resultaten brengen de onderzoekers weer een stap dichter bij het maken van natuurlijk klinkend stemgeluid met behulp van brain-computer-interfaces. ‘Ons proof-of-concept is een behoorlijke doorbraak,’ zegt Cho in het persbericht. ‘We zijn optimistisch dat we nu op elk niveau vooruitgang kunnen boeken. Op het gebied van de techniek bijvoorbeeld, zullen we het algoritme blijven pushen om te zien hoe we beter en sneller spraak kunnen genereren.’

Openingsbeeld: een onderzoeker sluit het kastje aan dat op het hoofd van proefpersoon Ann zit. Foto: Noah Berger