Werk aan de winkel voor big data-onderzoek
Gisteravond gaf de nieuwe KIVI-hoogleraar Geert Jan Houben - samen met collega's - een bloemlezing over big data. Naast alle ethische kwesties blijkt er op technologisch gebied genoeg werk aan de winkel.
De leerstoel van Houben bestaat namens het KIVI, maar Houben is door de universiteit zelf voorgedragen. Hij leidt in Delft al het Delft Data Science-initiatief en stuurt daarmee een groep jonge onderzoekers aan die de wetenschappelijke en technische vragen achter big data proberen op te lossen.
Vragen zoals: 'hoe verwerk je die enorme databergen?', 'waar komt de data precies vandaan?' en 'van wie is de data eigenlijk, bedrijf of burger?' komen aan bod. Zulke vragen slaan vooral op de zogenoemde sociale informatie; tweets, Facebook-posts en Linkedinprofielen leveren een schat aan informatie, maar hebben ook problemen. Als gebruikers doorhebben dat hun data gebruikt wordt voor gerichtere advertenties, zal hun gedrag daardoor veranderen. 'Zo ging het ook met Google; hun eerste algoritme was simpel, maar websites kwamen erachter dat via Search Engine Optimalization (SEO) het systeem te kraken was. Vandaar dat Google het algoritme nu regelmatig aanpast.' Op de TU proberen ze nu bijvoorbeeld de onlinecollege's met behulp van kijkersgegevens zo toegankelijk mogelijk te maken, ook voor groepen die normaal gesproken niet naar een college zouden gaan of kijken.
'Het interessante aan big data is dat het, net als het web, tegelijkertijd fundamenteel en experimenteel is', aldus Houben. Dat zorgt ervoor dat er een nieuwe soort onderzoek nodig is, waar computerwetenschappers vaak niet aan gewend zijn. 'Er komen sociale aspecten bij kijken die in een zuiver technisch systeem niet aanwezig zijn. Dat maakt het onderzoeken ervan zo spannend.'
Datacentrum
In drie masterclasses kreeg het publiek gisteren een voorproefje van Big Data-onderzoek. Alexandru Iosup richtte zich bijvoorbeeld op datacenters, één van de belangrijkste benodigdheden voor een informatiecultuur. Het zelf bouwen en onderhouden van een server is voor de meeste bedrijven niet rendabel; vandaar dat er steeds meer enorme servergebouwen ontstaan die gegevens opslaan en helpen met berekeningen. 'De nieuwe supercomputers', noemt Iosup ze, omdat ze de rol van die enorme machines (deels) overnemen. 'Nu is de gouden eeuw voor zulke centra; iedereen wil veel opslag en computerkracht, maar het zelf maken is niet slim. Bovendien zijn datacentra veelzijdig. Omdat ze verschillende klanten hebben, kunnen ze hun capaciteit slimmer inzetten. Een muziekdienst als Spotify zal bijvoorbeeld vooral in de ochtend en avond veel verkeer hebben, terwijl een Aziatisch bedrijf in een andere tijdzone op andere tijden veel opslag vraagt.'
Het probleem met zulke datacenters is dat ze enorme hoeveelheden energie vereisen. Iosup illustreert het met de video Gangham Style van de Koreaanse artiest Psy. Twee miljard keer is het filmpje bekeken, en met een voorzichtige schatting betekent dat dat het ruim 500 GWH kost om die video naar alle mensen te streamen. Meer dan 41 landen samen in een jaar verbruiken. De schaal vergroten en het energieverbruik laag houden is één van de dingen waar hij onderzoek naar doet. Uiteindelijk zal de industrie geen keuze hebben, want 'to out-compute is to out-compete', zoals Iosup het zegt; de kracht van de Westerse industrie zit hem in dit soort high-tech snufjes, waarmee ze efficiënter kunnen werken.
Ethiek
De avond eindigt met een discussieronde, waarin de ethische kwesties weer naar de voorgrond komen. Het houdt mensen duidelijk bezig: waar gaat het heen, is het wel veilig en is er iets aan te doen? Vaak lijkt het alsof Facebook en Google doen wat ze willen, en lukt het consumenten niet om een vuist te maken. Maar, zo merken ook de sprekers op, met regelgeving en boetes van de EU worden al stappen gezet. Als de burger zichzelf daarnaast ook laat horen - en niet denkt dat hij of zij niks kan doen - vinden we vanzelf een verantwoorde manier om de gegevensbergen te gebruiken, waarvan iedereen profijt heeft.
In de Ingenieur van juni: wat is big data, wat kunnen we ermee en hoe voorkom je misbruik?