Door kunstmatige intelligentie te combineren met big data kan een Deens programma nu met 90 procent zekerheid vaststellen of leerlingen hun schoolopstellen wel zelf hebben geschreven.

Het is een groot probleem op middelbare scholen: steeds meer leerlingen, zo blijkt uit onderzoek, plegen fraude bij het maken van hun profielwerkstuk, opstellen of ander schoolwerk. Om zeker te zijn van een hoog cijfer, huren ze bijvoorbeeld voor opstellen of andere schrijfopdrachten een ghostwriter in, om het werk voor hen te doen.

Aan de informaticafaculteit van Københavns Universitet hebben onderzoekers nu software ontwikkeld die op basis van big data en kunstmatige intelligentie met 90 procent zekerheid kan vaststellen of een leerling het schrijfwerk wel of niet zelf heeft verricht.


Fraudedetectie

Nu maken Deense scholen voor fraudedetectie vaak gebruik van het platform Lectio. Dat kan goed vaststellen of delen van een opstel zijn overgeschreven van eerder geschreven of op internet gepubliceerde opstellen.

Dit platform kan echter niet zien of er voor het werk een ghostwriter is ingehuurd. Omdat dat laatste steeds vaker gebeurt - zo worden er op internet zelfs openlijk schoolopdrachten uitgezet - gingen de onderzoekers aan de slag om een oplossing te zoeken. 


Alarm

Het programma van de Deense onderzoekers, Ghostwriter genaamd, herkent de specifieke schrijfstijl van een leerling. Ghostwriter gebruikt daarvoor een zogeheten Siamees neuraal netwerk, een vorm van kunstmatige intelligentie die heel geschikt is voor het herkennen van patronen in verschillende geschreven teksten. Daarvoor is het wel nodig dat eerdere schrijfopdrachten van de leerling in kwestie aan het systeem zijn toegevoegd.

Onder meer kijkt Ghostwriter naar de lengte van de gebruikte woorden, de zinsbouw en het gebruik van bepaalde woorden. Zo zal het systeem meteen alarm slaan als een opstel ineens de afkorting 'etc.' bevat, waar de leerling eerder altijd 'enz'. schreef, legt promovendus Stephan Lorenzen uit. Hij behoort tot de groep onderzoekers die hun bevindingen onlangs publiceerden.


Percentages

MaCom, het bedrijf dat Lectio verzorgt voor Deense middelbare scholen, voorzag de ontwikkelaars van een dataset van 130.000 opstellen van 10.000 verschillende scholen in Denemarken. De set vormde voor de onderzoekers een ideaal corpus om hun systeem op te kunnen testen. 

Wanneer een leerling zijn werk inlevert, vergelijkt het netwerk het met eerder ingeleverd werk van dezelfde leerling. Voor elk van die eerdere schrijfopdrachten rolt er vervolgens een percentage uit dat de overeenkomst tussen de betreffende, eerdere opdracht en het nieuwe opstel uitdrukt. Al die percentages samen vormen uiteindelijk een score waarin ook andere factoren zijn meegewogen, zoals de tijd die het de leerling heeft gekost het opstel te schrijven.

Het Siamese neurale netwerk bestaat uit twee delen: het deel 'encoding' analyseert de schrijfstijl van twee teksten, het deel 'comparison' analyseert de verschillen en de overeenkomsten. 


Ethische discussie

Hoewel het systeem nog in de testfase verkeert, voorziet Lorenzen dat het binnen niet al te lange tijd op scholen wordt ingezet. Scholen zijn constant bezig om de technologische ontwikkelingen bij te benen om het auteurschap van opstellen te verifiëren, zegt hij.

Wel wijst de onderzoeker erop dat er ook een ethische discussie moet worden gevoerd over de toepassing van het systeem. 'Een negatieve beoordeling door Ghostwriter alleen kan nooit voldoende zijn om fraude vast te stellen', zegt hij, 'maar kan wel dienen als aanvullend bewijs naast andere verdenkingen van fraude.' 


Grote meerwaarde

De technologie achter het fraudedetectiesysteem kan ook elders worden toegepast, zeggen de makers. Zo kan de politie het programma gebruiken om de authenticiteit van documenten te verifiëren; werk dat nu wordt uitgevoerd door forensische experts.

'Momenteel werkt de politie met deskundigen die in teksten zoeken naar kwalitatieve overeenkomsten en verschillen. Wij kunnen dergelijke patronen vinden in grote hoeveelheden tekst. Een combinatie van ons systeem en forensische deskundigheid zou grote meerwaarde hebben', stelt Lorenzen. 

De kunstmatige intelligentie die de onderzoekers gebruiken om schoolfraude op te sporen, wordt ook al toegepast om bijvoorbeeld vast te stellen of Twitterberichten zijn geplaatst door echte gebruikers of door een bot dan wel door ingehuurde krachten. 

Foto: Depositphotos