Persbureau Reuters gebruikt sinds enige tijd Reuters Tracer, met algoritmes die voortdurend miljoenen Twitterberichten analyseren op zoek naar nieuwsfeiten. Doel is om primeurs te vinden voordat andere media ermee aan de haal gaan. Het project is een succes, blijkt uit een recent artikel.

Er was een tijd dat journalisten voor primeurs – scoops in vakjargon – helemaal afhankelijk waren van hun eigen speurwerk en van het zeldzame telefoontje van een burger die zelf een nieuwsfeit meldt.

Maar de tijden zijn veranderd, en technologie heeft een flink deel van deze cyclus overgenomen. Persbureaus verspreiden het nieuws dat zij maken onder journalisten via online nieuwsfeeds en journalisten gebruiken onder meer sociale media om onderzoek te doen en mensen te benaderen.
 

Landing op de Hudson

Die sociale media (vooral Twitter) zijn ook een dankbare bron voor het vroeg signaleren van nieuwsverhalen. Dat bleek al in de begindagen van Twitter, bijvoorbeeld bij de onvoorziene landing van een vliegtuig op de Hudson-rivier in New York City, in 2009. Toen zette een ooggetuige een foto (zie rechts) van het net in het water gelande vliegtuig op Twitter, wat leidde tot ongelovige reacties.

Via Twitter kunnen burgers live aan de wereld (hun volgers) melden wat ze zien of meemaken. Dat kan een dankbare informatiebron zijn voor journalisten. Als op een bepaald moment meerdere mensen Twitteren over een trein die uit de rails loopt, dan zal er inderdaad wel wat aan de hand zijn. Hoog tijd voor verslaggevers van krant of tv om erop af te gaan.
 

Automatiseren

Nu zou je natuurlijk als journalist de hele dag op Twitter kunnen gaan zitten om te kijken wat er allemaal gebeurt. Maar het analyseren van die datastroom is uitstekend te automatiseren en dat is precies wat Reuters heeft gedaan.

Het persbureau zette Tracer op, een gereedschap dat continu Twitterberichten analyseert op zoek naar nieuwswaardige gebeurtenissen. Reuters kan zo vooral zaken singaleren die niet te plannen zijn. De opening van de Olympische Spelen staat natuurlijk gewoon op de agenda bij journalisten.
 

Continu analyseren

Tracer (zie de openingsfoto voor het gebruikersscherm) werkt als een soort sensor die binnen een paar minuten een nieuwsverhaal in ontwikkeling kan detecteren. Dat begint met het analyseren van tweets (dagelijks zo’n 12 miljoen berichten), zo’n 2 % van het totaal. Hiervan is de helft willekeurig gekozen en de andere helft een selectie van tweets van nuttige Twitteraccounts: een lijst met nieuwsmedia, bedrijven en invloedrijke personen, die wordt bijgehouden door journalisten van vlees en bloed van Reuters.

Tracer zoekt op bepaalde trefwoorden, en wanneer op een gegeven moment verschillende mensen over hetzelfde onderwerp tweeten, dan is er misschien wat aan de hand. Het Tracer-algoritme verzamelt berichten op onderwerp en zo ontstaan clusters van berichten. Daarin zitten ook spam, reclame, gewone gesprekken enzovoort. De volgende stap is dan ook om alle clusters in te delen en er prioriteiten aan toe te kennen.

Dit doet Tracer met een aantal algoritmes. Een daarvan herkent het onderwerp van een gesprek en vergelijkt dat met een database met bestaande onderwerpen. Tegelijk bepaalt een ander algoritme de locatie van de gebeurtenis, met behulp van een grote database met plaatsnamen én locatiespecifieke trefwoorden.
 

Hoe waarheidsgetrouw?

Wanneer een bepaalde gebeurtenis eenmaal is herkend als ‘mogelijk nieuwswaardig’ vindt een belangrijke stap plaats: bepalen hoe waarheidsgetrouw de gebeurtenis is. Dat doet Tracer door de allereerste tweet daarover op te sporen en na te gaan of die naar een bron verwijst, en zo ja, welke. Die bron wordt vergeleken met een lijst met bekende fake news-bronnen, zoals de satirische websites The National Report en The Onion.

Ten slotte schrijft weer een ander algoritme binnen Tracer een kop en een samenvatting van het nieuws, dat vervolgens verschijnt op de schermen binnen Reuters (zie afbeelding hieronder). Dit is het moment dat journalisten van dit persbureau met een onderwerp aan de slag kunnen gaan.

Een schematische weergave van alle processen binnen Tracer is onderaan het bericht te zien.
 


 

Eerste tests

In de eerste tests heeft Tracer goed gewerkt, zo meldt Technology Review. ‘Tracer haalt een goede precisie, snelheid en waarachtigheid bij het detecteren en presenteren van nieuwswaardige gebeurtenissen’, aldus Reuters.

Het bedrijf levert ook wat getallen. Van de 12 miljoen tweets die elke dag worden geanalyseerd, gaat 80 % meteen weg. De rest deelt Tracer in ongeveer 6.000 clusters in, met behulp van tien algoritmes die draaien op dertien computerservers, .

De output van Tracer is vervolgens vergeleken met de productie van gerenommeerde nieuwsorganisaties als BBC en CNN. Het blijkt dat het geautomatiseerde systeem voor 70 % van de nieuwsverhalen voldoende heeft aan 2 % van alle Twitter-data. Dit geeft aan hoe efficiënt Tracer werkt (en hoe zeer journalisten in de toekomst misschien moeten vrezen voor hun baan).
 

Primeur hebben of missen

Een belangrijk punt voor journalisten is de snelheid van berichtgeving, oftewel het verschil tussen een primeur hebben en hem missen. Bij de wrange gebeurtenissen als de schietpartij in Las Vegas, waar een schutter 58 mensen doodde, detecteerde Tracer de eerste tweet om 1.22 uur in de nacht en maakte daarop een nieuwe cluster aan. Pas om 1.39 uur was aan alle criteria voldaan om in de Tracer-nieuwsfeed te worden opgenomen. Om 1.49 uur stuurde Reuters een nieuwsbericht de wereld in, geschreven door een journalist van het persbureau. Andere voorbeelden waarbij het systeem Tracer de mensen van Reuters een kleine voorsprong gaf op concurrenten zijn hier te lezen.
 

Te beïnvloeden

Automatisering kan veel gaan betekenen voor de journalistiek. Maar alle ophef over fake news en manipulatie roept ook de vraag op hoe gemakkelijk dit systeem te beïnvloeden is. Stel je voor: iemand zet een zootje Twitterbots op die ongeveer tegelijkertijd beginnen te tweeten over een nep-gebeurtenis. Reuters Trace pikt dat dan op als mogelijk nieuws. ‘Daar is niet zo veel aan te doen’, schrijven de onderzoekers in een recent artikel op de preprint-server ArXiv. ‘Het maakt niet uit hoe goed het algoritme is dat de clusters maakt, het kan gebeuren dat echt en nepnieuws door elkaar gaan lopen. Want een erkend Twitteraccount kan nu eenmaal ook nepnieuws verspreiden. Mogelijk kan een algoritme dat de feiten gaat checken uitkomst bieden. Dat gaan we onderzoeken.’ En daarbij: ook menselijke journalisten trappen wel eens in een nepnieuwtje.

 

Overzicht van hoe Reuters Tracer werkt.

 

Beeldmateriaal: Liu et al., ArXiv, 2017 / Reuters

Vond je dit een interessant artikel, abonneer je dan gratis op onze wekelijkse nieuwsbrief.