Algoritme maakt Oudgriekse teksten compleet

Een nieuw algoritme van Deepmind is in staat om incomplete, teruggevonden Oudgriekse teksten aan te vullen. Ook kan het de periode en het gebied van schrijven achterhalen. Het beste resultaat wordt geboekt wanneer mens en machine samenwerken.

Het algoritme van Deepmind, een dochteronderneming van Google gespecialiseerd in kunstmatige intelligentie (AI), heet Ithaca. Het is vernoemd naar het thuiseiland van de mythische Griek Odysseus. Op 9 maart introduceerde Deepmind het nieuwe algoritme in Nature.

Scherven uit het verleden

De oude Grieken graveerden veel tekst in steen. Op gebruiksvoorwerpen, zoals kommen, werd soms de naam van de eigenaar gegraveerd. In andere gevallen werden stenen of metalen platen speciaal geproduceerd als drager voor bijvoorbeeld wetteksten of grafschriften. Deze opschriften bevatten een schat aan informatie over de geschiedenis, het dagelijks leven en de cultuur van het oude Griekenland.

Helaas ondervinden geschiedkundigen momenteel drie problemen bij het benutten van deze informatie. Ten eerste vinden archeologen vaak slechts scherven van potten en platen terug, waardoor teksten incompleet zijn. Ten tweede zijn steen en metaal anorganische materialen. Ze bevatten geen koolstof, en de periode waarin de teksten geschreven zijn kan dus ook niet bepaald worden met behulp van koolstofdatering. Ten slotte zijn de graveringen soms in de loop der tijd vervoerd, waardoor ook de geografische herkomst van de tekst niet altijd goed te achterhalen is.

Een gefragmenteerde tekst wordt compleet gemaakt. Beeld: Wikimedia Commons (CC BY-SA 3.0)

Puzzel van letters en woorden

Ithaca helpt bij het oplossen van deze problemen, waarbij het herstellen van de incomplete teksten de grootste uitdaging vormt. In de meest gebruikte algoritmen om taal te begrijpen wordt namelijk alleen naar woord- of lettervolgorde gekeken. Maar om een incompleet woord in te vullen moet je vaak informatie uit zowel de intacte letters van het woord zelf als de omliggende woorden halen.

Neem bijvoorbeeld de zin “Ik wil een h*nd als huisdier.”, waarin het sterretje een ontbrekende letter vervangt. Voor elke Nederlandse lezer zal het duidelijk zijn dat het vierde woord van deze zin hond moet zijn. Voor een algoritme dat alleen maar naar de letters van het woord h*nd kijkt, zou het woord hand echter een even goede optie zijn. En voor een algoritme dat juist alleen naar de omringende woorden kijkt, zou kat een even goede optie zijn.

Op deze afbeelding is een voorbeeld te zien van welke letters (paars gearceerd) en woorden (in de lichtblauwe rechthoeken) Ithaca gebruikt bij het stapsgewijs invullen van ontbrekende letters. Beeld: Deepmind

Oplossing

Om dit probleem voor de incomplete Griekse teksten op te lossen gebruikt Ithaca dus zowel de woord- als lettervolgorde van een tekst. Hierin vindt het eerste deel van Google’s machine learning-systeem de juiste informatie om als input te dienen voor het tweede deel. Dit tweede deel bestaat uit drie compartimenten die aan de hand van deze input de volledige tekst, de datering ervan en de geografische oorsprong ervan inschat.

Om de prestatie van het algoritme op het gebied van teksten aanvullen te meten, werd uit complete Oudgriekse teksten willekeurig tien procent van de letters verwijderd. In bijna 62 procent van de gevallen wist het programma de tekst juist aan te vullen. Maar nog indrukwekkender is wellicht wat er gebeurt als je historici laat samenwerken met Ithaca. Hun gezamenlijke antwoorden zijn namelijk bijna 72 procent correct. Historici gaven zonder hulp van de AI nog niet eens een kwart van de keren een juist antwoord.

Ithaca is online gemakkelijk zelf uit te testen voor iedereen die nog een Griekse pottenscherf in een schuurtje heeft liggen.

Openingsbeeld: Pixabay