Twitterbots herkennen in elke taal
Scandinavische onderzoekers hebben een manier gevonden om een twitterbot, die automatisch berichten op het sociale medium plaatst, te herkennen in elke taal. Het algoritme is minder nauwkeurig dan toegewijde algoritmen in één taal, maar veel breder toepasbaar.
Twitterbots komen in allerlei vormen: er zijn bots die elke dag automatisch posten wat voor weer het is, wat voor vacatures er zijn of wat het laatste nieuws is. Maar er zijn ook bots met sinisterder doeleinden: het verspreiden van misinformatie, het uitvergroten van schandalen of het aanvallen van andere gebruikers.
Mede daarom zijn twitterbots een doorn in het oog voor de berichtendienst. Twitter verwijdert regelmatig bots, maar ze blijven verschijnen. Volgens schattingen is 25 procent van alle tweets geproduceerd door een bot en is 5-10 procent van alle gebruikers eigenlijk een bot.
Om ze te herkennen, bestaan nu algoritmen die proberen bepaalde patronen in de tweets te herkennen. Die programma's vragen echter om veel taalbegrip: het moet zien wanneer een zin onnatuurlijk is, of een bepaald woord vaak wordt gebruikt. Daardoor werken die programma's vaak niet voor andere talen.
Tien criteria voor een bot
Onderzoekers van een Zweedse en een Finse universiteit hebben nu een nieuwe aanpak. Hun programma kijkt niet naar de taal, maar naar andere informatie in een tweet. Tien criteria, zoals 'reageert deze tweet op een andere tweet', 'hoeveel volgers heeft het account' en 'hoeveel berichten plaatst het per dag'. Dat zijn universele dingen die je voor elke tweet kan bekijken, onafhankelijk van de taal.
Eerst lieten ze mensen een set van duizenden tweets (een deel Engels, een deel Fins en een deel Zweeds) annoteren. De mensen zagen bij de meeste tweets direct of het een bot was of niet. Met die informatie kon het algoritme herkennen welke combinatie van criteria samenhing met een bottweet. Zo leerde het hoe een bot zich op twitter gedraagt.
99 procent herkenning
Deze aanpak werkte verrassend goed. Het herkende 99 procent van de engelse bottweets, 79 procent van de Zweedse en 86 procent van de Finse. Bij de Finse tweets had het wel het vaakst een misser, waarbij het een mensentweet aanzag voor botwerk.
De onderzoekers denken dat het algoritme ook kan werken in andere talen, waar het geen trainingsmateriaal voor heeft gehad. De bekeken criteria zijn immers universeel. Of dat ook klopt, gaan ze in de toekomst uitzoeken. Het zou het werk van Twitter-moderators, die (malafide) bots van het platform proberen te weren een uitkomst zijn. Dan kunnen ze zonder de taal te kennen toch elke twitter-omgeving relatief botvrij houden, zodat alleen mensen met elkaar kunnen discussieren op het sociale medium.