3 maart 2017

Record voor dataopslag in DNA

Amerikaanse Ingenieurs en biochemici hebben een algoritme bedacht om data zeer efficiënt op te slaan in kunstmatig DNA. Ze zetten de enen en nullen uit het binaire systeem om in de basen A, G, C en T en slagen er zo in om in 1 g DNA 215 PB (petabyte) aan data te coderen; een dik wereldrecord.

DNA heeft al een paar jaar de aandacht van wetenschappers dankzij een paar bijzondere eigenschappen. Het belooft een veel grotere datadichtheid (bytes per gram) dan gangbare vormen van dataopslag. Maar het meest bijzonder is de stabiliteit van DNA: het kan honderden en wellicht zelfs duizenden jaren intact blijven. ‘Anders dan cd’s, harde schijven of cassettebandjes vergaat DNA niet met de jaren’, laat dr. Yaniv Erlich weten per e-mail. Erlich is universitair docent informatica aan Columbia University en medeauteur van het artikel ‘DNA Fountain enables a robust and efficient storage architecture’ in Science, dat gisteren verscheen. En met een knipoog: ‘DNA zal ook niet snel in onbruik raken.’

Fonteinen en sudoku’s

Digitale data is binair, hij bestaat uit enen en nullen. Die kun je omzetten in de vier basen uit DNA, zo laten de wetenschappers zien in hun werk. Ze gebruiken daarvoor een slimme methode genaamd fountain coding die een flinke datacompressie mogelijk maakt. Projectleider Erlich vergelijkt het graag met sudoku’s, de vierkante puzzels waarbij een paar simpele regels bepalen welke cijfers je wel en niet mag invullen. ‘Fountain code is een manier om de inhoud van een digitaal bestand weer te geven in een soort sudoku’s. Net als bij een sudoku zijn sommige cellen al ingevuld. Andere cellen zijn leeg, maar die zijn in te vullen aan de hand van regels. En het woord “fontein” verwijst naar het feit dat je een oneindig aantal regels kunt genereren voor de puzzel. Die regels moeten trouwens eenvoudig zijn, zodat het decoderen snel kan verlopen.’

Franse film

Met deze techniek codeerden – schreven – de onderzoekers verschillende grote digitale bestanden in synthetisch DNA: een volledig operating system, een oude Franse film en de Pioneer plaque, de gouden plaat die meegegeven zijn met twee van de Pioneer-ruimtesondes (zie afbeelding rechts). Die bestanden werden in een master-bestand gestopt, waarna het centrale algoritme dit omzette in de sudoku-achtige vorm. Daarbij veranderde “00” in de base “A”; “01” werd “C”; “10” werd “G” en “11” werd “T”. ‘Lange reeksen zoals “AAAAAAA” zijn lastiger om te maken en gevoeliger voor fouten. Daarom vermijdt onze techniek dit soort reeksen’, aldus Erlich.

Op deze manier maakten de onderzoekers een digitale lijst van zo’n 72.000 stukjes kunstmatig DNA van elk 200 basen lang. Een bedrijf dat is gespecialiseerd in DNA-synthese bouwde op basis van deze lijst werkelijk DNA-materiaal. Twee weken later kwam er van dit bedrijf een buisje met DNA-moleculen erin bij Erlichs lab. Nu werd het spannend, want nu moest blijken of uit het DNA weer de oorspronkelijke informatie tevoorschijn zou komen.

Nul fouten

Hiervoor gebruikten de Amerikanen de meest moderne sequencing-technieken. Het oorspronkelijke databestand kwam weer tevoorschijn met nul fouten erin. Ook toonde het team aan dat het data-DNA gekopieerd kon worden en dat ook die stap geen fouten introduceerde. Ten slotte beschrijven de onderzoekers dat hun methode 215 PB (1 petabyte is 10¹⁵ bytes oftewel 1 miljoen gigabytes) in een gram DNA kan persen, dat is dankzij de fountain coding zo’n honderd keer meer dan van de eerdere recordhouder. ‘We denken dat dit de dataopslag is met de hoogste dichtheid ooit’, zegt Erlich.

Duur

Duur is hij wel, deze manier om data op te slaan. Het synthetiseren van het DNA kostte 7000 dollar (6700 euro) en het weer uitlezen ook nog eens 1900 dollar (euro). De prijs kan flink omlaag, denkt Erlich, want je mag best moleculen van mindere kwaliteit maken. Dat brengt foutjes met zich mee, maar die zijn te corrigeren met de codeerstap. ‘We kunnen een groter deel van het zware werk doen op de computer zodat we minder hoeven te leunen op het tijdsintensieve gedeelte waarbij de moleculen in elkaar worden gezet.’

Lees meer in het persbericht van Columbia University. Daar is ook een informatieve video te zien.

Openingsfoto: links Dina Zielinski en rechts Yaniv Erlich. Beeldmateriaal Columbia University