De captcha is een van de populairste beveiligingstechnieken voor websites. Onderzoekers hebben echter een algoritme ontwikkeld dat in staat is het systeem te kraken.

Talloze websites gebruiken een captcha om een onderscheid te maken tussen menselijke en geautomatiseerde bezoekers. Het systeem bestaat uit een willekeurig gegenereerde reeks vervormde cijfers en letters, op het oog lukraak geplaatst en vaak nog half doorgestreept ook. De websitebezoeker moet de juiste tekens eruit halen. Dat gaat de meeste mensen vrij makkelijk af, maar bots hebben er grote moeite mee. Zo kan een site voorkomen dat met dergelijke bots online-diensten worden misbruikt.

Computerwetenschappers aan de Lancaster University en twee universiteiten in Beijing hebben nu een algoritme ontwikkeld dat in staat is het authentificatiesysteem voor de gek te houden. Binnen 5/100ste seconde kan het systeem de code kraken. Niet eerder was er een algoritme dat zo goed raad weet met de captcha. Volgens de onderzoekers lijkt het er dan ook op dat het beveiligingssysteem zijn langste tijd heeft gehad. Ze presenteerden hun bevindingen dinsdag op een conferentie in Canada. 

Het algoritme maakt gebruik van een 'Generative Adversarial Network' (GAN), een groep zelflerende AI-algoritmes. Het GAN laat een generator grote aantallen captcha's produceren die niet van echt zijn te onderscheiden. Die worden vervolgens gebruikt om het systeem te leren, waarna de opgedane kennis wordt getest en verfijnd met echte captcha's. Op basis van slechts 500 echte captcha's kan het systeem al heel effectief zijn. Bij eerdere pogingen de captcha te kraken middels deep learning waren miljoenen captcha's nodig. Die konden bovendien slechts één type captcha oplossen, waar de onderzoekers uit Lancaster er veel meer aankunnen. Ze hebben het met succes getest op 33 captcha-systemen, waaronder elf die worden gebruikt op de populairste websites ter wereld, van onder meer eBay, Microsoft en Wikipedia. 

'Dit is de eerste keer dat er op basis van GAN een captcha-kraker is gemaakt', zei Zheng Wang, coauteur van het onderzoek, in een persbericht van Lancaster University. 'Ons onderzoek toont aan dat de beveiligingsmethoden met tekstcaptcha's zeer kwetsbaar zijn voor zelflerende methoden.' Volgens Wang zou het kwaadwillenden weinig moeite kosten om websites aan te vallen met een dergelijk algoritme. 'Dat is beangstigend omdat we het hier hebben over het belangrijkste beveiligingsmiddel van vele websites.' Een aanval zou de verspreiding van spam in de hand kunnen werken, maar ook persoonsgegevens zouden een makkelijk prooi worden voor hackers.

'De risico's zijn zo groot dat websites niet langer van captcha's gebruik zouden moeten maken', zegt medeonderzoeker Guixin Ye. Als alternatief noemt hij meervoudige beveiligingslagen, waaronder gebruikspatronen van de sitebezoeker, diens locatie en mogelijk ook biometrische data.