Spraakalgoritme evenaart mens

Het spraakherkenningsalgoritme van Microsoft, dat het softwarebedrijf onder andere gebruikt in digitale assistent Cortana, is nu even goed als de beste mensen? De onderzoekstak van Microsoft wist de algoritmes met 12 procent te verbeteren ten opzichte van hun eerdere versie.

Het algoritme miste in 5,1 procent van de gevallen een woord. Daarmee is het even goed als een groep menselijke notulisten die nauwkeurig luisteren naar een opname van spraak. Microsoft bereikte dit resultaten door hun algoritmen te verbeteren. Als trainingsmateriaal gebruikte het bedrijf een database met duizenden minuten gesproken teksten.

Siri en Cortana

Het omzetten van spraak naar tekst is niet eenvoudig voor computers. Ondanks de enorme toename van rekenkracht in de afgelopen decennia trachten informatici al 25 jaar om een fatsoenlijk omzettingsprogramma te maken.

De afgelopen jaren ging dat steeds beter, mede doordat de 'digitale assistent' opkwam. Denk aan Siri op iPhone, Cortana voor Windows en de taalherkenning van Google Home. Die vereisen allemaal een goed begrip van gesproken taal, waardoor drie grote techbedrijven plotseling veel moeite deden om spraakherkenning te verbeteren.

Hoe snel die vooruitgang gaat, houden de bedrijven goeddeels geheim. In 2015 zei Google dat het op 8 procent fout herkende woorden zat, begin dit jaar liet het bedrijf weten de herkenning met 30 procent te hebben verbeterd, wat Google's herkenningsalgoritme een foutrating van 5,6 geven. Hoe ver Siri is, is onduidelijk.

Luisteren en begrijpen

Dat Microsoft nu triomfantelijk met deze nieuwste doorbraak komt, suggereert dat het bedrijf de voorloper is op dit gebied. Vorig jaar haalde het al 5,9 procent, de foutfrequentie van 'gewone' notulisten. De nu behaalde 5,1 procent is de top van het menselijk kunnen, aldus de onderzoekers. Als een algoritme dat kan evenaren, wordt het pas echt goed bruikbaar.

Microsoft kwam zo ver door twee delen van de technologie te verbeteren: het luisterdeel en het begripdeel. Wat het luisteren betreft: de computer kan nu beter 'horen' en zal dus ook gemompel opvangen. Ook kan het woorden die veel op elkaar lijken beter onderscheiden. Het begripdeel heeft een grote upgrade gekregen: het vocubulaire van de taalrobot ging van 30.000 naar 165.000 woorden. Dat helpt eveneens om minder woorden fout te interpreteren.

Daarnaast heeft Microsoft een systeem toegevoegd dat voorspelt welke woorden er volgen op bepaalde zinsdelen. Daardoor weet het algortime in welke hoek het woorden moet zoeken. Dat maakt het algoritme sneller én nauwkeuriger.

Lawaai

Hoewel spraakherkenning al veel verder is dan een paar jaar terug, valt er nog genoeg te doen. Deze spraakherkenning gebruikte bijna perfecte opnames van mensen die relatief duidelijk spreken. In lawaaiige omgevingen alle woorden goed verstaan, iets waar mensen goed in zijn, valt voor computers nog steeds niet mee.

Beeld: Microsoft