Taalmodellen kennen geen twijfel

Een gevolg van de populariteit van generatieve taalmodellen is dat bronnen steeds minder belangrijk worden gevonden. We nemen genoegen met hapklare informatiebrokken, ook al zijn die allesbehalve foutloos, stelt columnist Rudy van Belkom.

OpenAI heeft met ChatGPT de betekenis van online informatievergaring fundamenteel veranderd en zo een nieuwe manier van zoeken geïntroduceerd. Van een overzicht van bronnen naar kant-en-klare AI-antwoorden.

Je hoeft zelf niet meer te analyseren welke bronnen betrouwbaar zijn en wat de strekking van de informatie is, AI doet het voor je. Met prachtige zinsconstructies en op zeer overtuigende wijze worden de antwoorden gepresenteerd. Gemak dient de mens. En mensen houden nu eenmaal van gemak, dus we zijn snel vertrouwd geraakt met deze nieuwe manier van zoeken. Uit gegevens van Apple blijkt bijvoorbeeld dat het aantal Google-zoekopdrachten via de Safari-browser van de iPhone aan het afnemen is, doordat steeds meer mensen gebruikmaken van AI-gestuurde alternatieven.

Google voelde deze verandering aankomen en rolde in 2024 de functionaliteit ‘AI Overviews’ uit (vanaf 20 mei dit jaar ook in Nederland beschikbaar). Het antwoord op een zoekopdracht wordt door AI geformuleerd en boven de reguliere zoekresultaten geplaatst. Dat veel mensen genoegen nemen met het antwoord blijkt uit het feit dat de doorklikratio’s van Google het afgelopen jaar met 30 procent zijn gedaald. Gebruikers klikken dus veel minder vaak door naar externe bronnen.

AI Overview heeft geen goede voelsprieten voor sarcasme of satire
Rudy van Belkomdirecteur STT

Het gevaar van deze ontwikkeling is dat bronnen minder belangrijk worden: we vragen niet meer door en nemen genoegen met hapklare informatiebrokken. Terwijl deze informatiebrokken allesbehalve foutloos zijn. Of zoals aan de AI Overviews is toegevoegd: AI responses may include mistakes.

Taalmodellen baseren hun antwoorden niet op begrip of kennis, maar op statistiek: ze voorspellen simpelweg welke woordcombinaties het meest waarschijnlijk zijn op basis van enorme hoeveelheden tekst. Waarschijnlijkheid zegt echter niet zoveel over betrouwbaarheid. Het systeem kan ook informatie uit onbetrouwbare websites meenemen in het antwoord. Daarbij gaat de context in al dat rekengeweld vaak verloren: het systeem heeft geen goede voelsprieten voor sarcasme of satire.

Zo beweerde Google’s AI Overviews ten onrechte dat Barack Obama de eerste moslimpresident van de Verenigde Staten was. De fout werd veroorzaakt doordat het systeem informatie uit het boek Faith in the New Millennium: The Future of Religion and American Politics gebruikte. Een van de hoofdstukken – ‘Barack Hussein Obama: America’s First Muslim President?’ – onderzoekt de oorsprong en impact van de complottheorie dat Barack Obama een moslim zou zijn. De titel werd te letterlijk genomen en voor feit aangezien.

Het feit dat we met technologie iets kunnen, betekent nog niet dat we het ook moeten inzetten.
Rudy van Belkomdirecteur STT

Taalmodellen hebben daarbij de neiging om altijd een antwoord te geven, ook als het geen betrouwbare informatie heeft. Dit fenomeen wordt ook wel ‘hallucineren’ genoemd. Taalmodellen zijn niet geoptimaliseerd om te twijfelen. Wanneer gebruikers verzonnen uitdrukkingen invoerden, gaf AI Overview gedetailleerde, maar volledig gefabriceerde verklaringen over hun betekenis en oorsprong. Doordat taalmodellen zijn getraind op grote hoeveelheden tekst leren ze hoe ‘geloofwaardige’ zinnen eruitzien. Ze zijn er dus enorm goed in om antwoorden ‘net echt’ te laten lijken.

Onderzoekers denken nu dat een andere manier van prompten de oplossing is, namelijk chain-of-thought prompting. Hiermee instrueer je het systeem om stap voor stap tot het antwoord te komen. Dit zou moeten leiden tot meer nuance en nauwkeurigheid. Taalmodellen zouden op deze wijze zelfs kunnen ‘redeneren’. Maar wat als dat redeneren nu juist het probleem is? Ik heb ChatGPT wel eens gevraagd om het einde van een film te duiden op basis van mijn eigen gedachten. Het antwoord leek geloofwaardig en accuraat. Maar toen ik vroeg of het systeem dit ‘weet’ of ‘denkt’, gaf het systeem aan enkel te redeneren op basis van mijn input. Het kende de film zelf niet.

Wat ik vaak mis in de discussie over nieuwe technologie is de maatschappelijke afweging. Het feit dat we met technologie iets kunnen, betekent nog niet dat we het ook moeten inzetten.

Rudy van Belkom is directeur van Stichting Toekomstbeeld der Techniek (STT).
Beeld: Yutong Liu & Kingston School of Art, betterimagesofai.org