Data-opslag in DNA weer stap dichterbij
Data-opslag in synthetisch DNA biedt voordelen ten opzichte van opslag in de cloud. Onderzoekers van onder meer de TU Eindhoven ontwikkelden microbolletjes met geïsoleerde DNA-strengen, zodat deze databestanden los van elkaar kunnen worden uitgelezen. Deze week publiceerden ze hun bevindingen in Nature Nanotechnology.
Terwijl de datacenters als paddenstoelen uit de grond schieten en het steeds meer energie kost om al onze informatie op te slaan in de cloud, zijn wetenschappers druk bezig een andere manier van dataopslag voor elkaar te krijgen.
Niet door zoals gebruikelijk minuscule schakelaartjes aan en uit te zetten en op die manier een code van enen en nullen te genereren, maar zoals de natuur het al veel langer doet: met behulp van DNA.
Synthetisch DNA
DNA bestaat uit strengen van nucleotiden. Hierin bevat de volgorde van de stikstofbaseparen adenine-guanine en thymine-cytosine (AG en TC) de instructies voor de ontwikkeling van levende organismen en virussen.
Door zelf synthetisch DNA te maken, kunnen we ook onze eigen informatie als AG/TC-codering opslaan, is de gedachte. In plaats van energieslurpende opslagcentra zijn dan veel kleinere, energiezuiniger en dus goedkopere laboratoria nodig.
Het idee om DNA als data-opslag te gebruiken bestaat al langer. In 1964 werd het idee al geopperd door een wetenschapper uit de Sovjet Unie, in 2011 werd een boek over genetica voor het eerst gecodeerd in DNA, en in 2017 zat de vaart er al in, zoals we hier al eerder schreven. Wetenschappers hopen zelfs met een ‘DNA-computer’ dingen te kunnen doen die een gewone computer niet kan, blijkt uit dit verhaal uit 2021. En behalve DNA kun je ook andere moleculen gebruiken,.
DNA uitlezen met PCR
Een van de uitdagingen die deze vorm van dataopslag met zich meebrengt, is hoe de gewenste informatie op een bepaald moment weer kan worden uitgelezen. Op dit moment gebeurt dat met de PCR (polymerase chain reaction)-methode, die we inmiddels allemaal kennen van de coronatesten van afgelopen jaren.
Bij deze methode wordt DNA dat een bepaalde code bevat miljoenen keren gekopieerd om het detecteerbaar te maken. Dit op basis van een ‘primer’ die de gezochte DNA-code bevat. Voor een virus dat je zoekt is dat een ideale methode. Om grote databestanden uit te lezen heb je echter meerdere primers nodig en moet je telkens al het DNA aan de test onderwerpen – en bij elke kopieerslag kunnen er foutjes optreden en gaat de kwaliteit van de data dus achteruit.
Microbolletjes
Hierop heeft een internationaal team onderzoekers van onder andere de TU Eindhoven, de Radboud Universiteit en Microsoft nu iets gevonden. Zij ontwikkelden een microbolletje waaraan zich strengen van basenparen kunnen hechten die samen één bestand vormen. Hiermee kan het uitlezen efficiënter gebeuren, en met minder achteruitgang in de datakwaliteit. Afgelopen donderdag, op 4 mei, publiceerden ze hun resultaten in het vakblad Nature Nanotechnology.
De microbolletjes bestaan uit eiwitten en polymeren, en hebben thermische eigenschappen waardoor ze zich boven de 50 graden Celsius sluiten. Op die manier is het mogelijk het PCR-proces binnen een bolletje laten plaatsvinden. De verschillende bestanden worden daardoor geïsoleerd van elkaar (maar wel gelijktijdig) gekopieerd en doorzocht – de informatie bevindt zich zo als het ware in een stapel boeken, in plaats van in een grote berg A4-tjes.
Kwaliteit van de data
Wellicht nog belangrijker is dat op deze manier alleen het originele DNA na de PCR-test bewaard blijft: als de temperatuur daalt en het bolletje zich weer opent, komt het gekopieerde DNA vrij, maar blijven de vastgehechte, oorspronkelijke strengen zitten. Zo hebben kopieerfouten geen blijvende invloed op de kwaliteit van de data.
‘We zitten nu op een verlies van 0,3 procent na drie keer uitlezen, vergeleken met 35 procent bij de huidige methode.’ zeggen promovendus Bas Bögels en zijn begeleider Tom de Greef van de TU Eindhoven in een nieuwsbericht op de website van de TU/e.
Vind je dit een interessant artikel? Abonneer je dan gratis op de wekelijkse nieuwsbrief van De Ingenieur. Behoefte aan iets meer diepgang? Neem dan eens een proefabonnement van drie nummers op het papieren tijdschrift!
Fluorescerend label
Om te weten welk bolletje moet worden geopend – dus welk boek de gegevens bevat die je zoekt – hebben de onderzoekers de bolletjes van een fluorescent label voorzien, elk met een eigen kleur. Een apparaat kan deze kleuren detecteren en van elkaar onderscheiden.
De Greef ziet het nieuwe datacenter al helemaal voor zich, vertelt hij op de website van de TU/e: in een deel van het gebouw worden nieuwe bestanden gecodeerd via DNA-synthese, in een ander deel liggen grote velden aan bolletjes met bestanden. Een robotarm haalt een bolletje eruit, leest de inhoud, en plaatst het weer terug.
Toekomst
De Greef verwacht dat het eerste DNA-datacenter over vijf à tien jaar werkelijkheid is geworden. Het idee is overigens niet dat dit de gebruikelijke manier van dataopslag volledig zal vervangen, zegt hij desgevraagd. Er zal straks dus niet voor elke Google-zoekterm die je intikt een PCR-test worden opgestart. ‘Het is bedoeld voor archiefopslag, dus voor data die hooguit een paar keer per jaar worden uitgelezen’, zegt De Greef. ‘Maar veel van de gegevens die we bewaren vallen daaronder.’
Openingsbeeld: Microbolletjes met fluorescente labels. Foto: Tom de Greef