Biomemory relance le stockage sur ADN via des cellules vivantes
Ce système d’archivage promet d’occuper 20 000 fois moins de place dans les data centers et de perdurer des milliers d’années. Mais l’écriture est lente. Sauf si l’on passe par des bactéries.
Grâce aux Français de Biomemory, les data centers pourraient être équipés dès 2030 d’une appliance BioDrive capable de stocker les données sur de l’ADN. L’intérêt ? La densité, d’abord : l’intégralité des documents produits dans le monde en 2019, soit 45 zettaoctets (45 Zo, ou 47,2 millions de Po) pourrait tenir dans 100 grammes de poudre. La longévité ensuite : a priori l’ADN ne se dégrade pas avant des milliers d’années.
« Les scientifiques ont réussi à retrouver de l’ADN de mammouth vieux de 1,2 million d’années. Alors que, dans un data center, vous devez répliquer vos archives en moyenne tous les sept ans sur de nouveaux supports, avant qu’ils ne se dégradent à cause de l’humidité ou de la température », explique Pierre Crozet, co-fondateur et directeur technique de Biomemory, lors d’une rencontre à Paris dans le cadre d’un événement IT Press Tour.
« En archivant vos données sur de l’ADN, vous éliminez donc déjà le coût colossal en énergie pour en faire régulièrement une nouvelle copie. Vous économisez aussi de la place. Aujourd’hui, les data centers représentent plus d’un millionième de la surface habitable sur Terre. Si la production d’archives sur bandes ou sur disques continue de croître au même rythme tous les ans, les datacenters représenteront un millième de la surface habitable en 2040. », dit-il.
« En stockant les archives sur de l’ADN, vous pourriez physiquement déplacer toutes les données créées par l’humanité depuis la nuit des temps, sur la Lune ou sur Mars, en un seul voyage à bord d’une petite navette » enchérit Erfane Arwani, le PDG de Biomemory, en exhibant une minuscule capsule en inox.
Cette capsule contiendrait 100 milliards de copies de la « Déclaration des droits de l’homme et du citoyen », de 1789, et de la « Déclaration des droits de la femme et de la citoyenne » de 1791, écrites dans 0,2 millilitre de poudre lyophilisée. Selon les calculs du MagIT, cela revient environ à 3,2 Po de données, soit un ratio de 16 Po par millilitre. Ici, un bit tient sur 50 atomes.
Une archive qui se détruit à chaque lecture
En réalité, le stockage sur ADN n’est pas nouveau. Les premières démonstrations remontent à 2012. Jusque-là, la technologie qui consistait à synthétiser chimiquement, in vitro, des monobrins d’ADN n’était pas satisfaisante. Chaque écriture nécessite des manipulations en laboratoire – estimées à 1 000 dollars par Mo. Le monobrin d’ADN est trop court pour stocker quoi que ce soit d’intéressant. Et pire, relire un contenu revient à le détruire.
Plus exactement, il faut prélever le grain de poudre qui porte le contenu dans son ADN, le diluer dans une gouttelette d’eau pure et, avant que le mélange ne s’évapore à l’air libre, le faire avaler par un petit séquenceur d’ADN. La gouttelette n’est pas récupérable. L’archive est perdue après la manipulation.
À date, le slogan du stockage sur ADN est WORN : Write Once, Read Never (« écrire une fois, ne relire jamais »), un jeu de mots avec WORM, l’acronyme des archives résistantes aux ransomwares. Seule consolation, la lecture ne coûte plus cher. Le Britannique Oxford Nanopore vend désormais un séquenceur ADN connectable en USB pour une centaine d’euros.
Le BioDrive de Biomemory pourrait quant à lui éliminer les manipulations initiales en laboratoire, écrire des contenus sans limites de taille et ramener le coût de l’écriture à 1 euro par Téraoctet. Mais son véritable intérêt est que l’archive existe toujours après chaque relecture.
L’idée : faire photocopier l’archive par des organismes… vivants
« Notre stratégie consiste à reproduire l’ADN in vivo. Nous utilisons de longues molécules d’ADN à double brin réplicatif comme support physique. Une fois construites, ces molécules peuvent être introduites dans des organismes vivants [une bactérie Escherichia coli, N.D.R.] pour être naturellement répliquées », lance Pierre Crozet.
« Cette réplication naturelle et rapide est notre différence par rapport aux autres projets de stockage sur ADN. Nous pouvons copier l’ADN autant de fois que nous le voulons. Et sans que cela coûte quoi que ce soit. Puisque c’est la bactérie vivante Escherichia coli qui fait tout le travail », dit Erfane Arwani.
« Une fois votre archive réalisée, vous en mettez des millions de copies dans une petite capsule. Dans un cas d’usage normal, vous n’arriverez jamais à relire assez de fois votre archive pour en détruire tous les exemplaires », ajoute-t-il.
En l’occurrence, l’ADN sur lequel travaille Biomemory est celui en double hélice, dont tout le monde a la représentation en tête, et qui compose les chromosomes des cellules vivantes. Celui sur lequel planchent les autres chercheurs depuis 2012 n’a pas les deux hélices et ne peut donc pas se reproduire tout seul dans le monde vivant.
Pierre Crozet devance les questions de la presse : « non ! Il n’est pas possible que les séquences aléatoires de données coïncident avec le génome d’un virus. Non ! le technicien qui manipulera les supports de stockage dans le data center ne courra pas le risque d’être contaminé par un élément biologique indésirable. »
Contrairement aux journalistes présents lors de la séance, LeMagIT compris, qui affichaient un sourire poliment crispé, Pierre Crozet n’a absolument pas l’intention de plaisanter sur le sujet. Et pour cause : le risque de créer un virus létal en stockant des données dans les nucléotides de l’ADN existe bel et bien.
« En fait, nous évitons ce risque, car nous fragmentons les contenus que nous écrivons en blocs de données, stockés dans des secteurs et des pistes similaires à ceux des disques durs. »
Un véritable système de stockage dans la structure de l’ADN
Cette construction a un nom qui sonne comme celui d’un système de fichiers : RISE (Random In-Silico Evolution). Ici, chaque secteur délimite le bloc de données qu’il contient par des blocs fonctionnels (index du secteur, code de vérification du contenu et bits neutres pour accrocher les secteurs les uns aux autres). Puis, au bout d’un certain nombre de secteurs, le dernier est raccroché au premier, pour obtenir une molécule d’ADN qui a la forme d’une boucle (un « plasmide », en chimie).
Avec une telle construction, dite « biosafe », il ne serait pas possible de produire une information génétique. En revanche, il serait toujours possible de changer le contenu des secteurs et de remplacer les secteurs d’une boucle par d’autres.
Chaque molécule en boucle, ou « piste » est composée de 6,4 milliards de paires de nucléotides, soit une capacité d’environ 700 Mo de données utiles. Les boucles sont assemblées en un pool (qui forme a priori un cylindre), les pools sont rangés sur une grille et les grilles sont superposées en cluster. L’analogie des pistes, des disques et des baies de stockage montées en cluster n’est pas loin. Sauf qu’il faut aujourd’hui une demie étagère rack (20U de haut) pour stocker 3,2 Po bruts sur des disques, contre 0,2 millilitre de poudre avec l’ADN.
L’un des points clés de RISE serait sa manière d’encoder les bits sur les nucléotides de l’ADN. Ce sont les fameuses quatre lettres A, C, G, T, qui correspondent au vocabulaire de base d’une séquence d’ADN. Plutôt que leur faire correspondre quatre séquences de deux bits (00, 01, 10 et 11), Biomemory écrit un 0 avec un nucléotide A ou C et un 1 avec un nucléotide G ou T. Cette méthode permet de créer des caractéristiques chimiques précises dans l’ADN, quel que soit le contenu binaire des données.
L’encre comme support ?
L’appliance BioDrive devrait être mise au point d’ici à une petite dizaine d’années. A priori, elle ne servira qu’à l’archivage une bonne fois pour toutes des données. Les informations écrites dans l’ADN des molécules lyophilisées ne seront pas modifiables a posteriori. Si un contenu devait être mis à jour, il faudrait créer une nouvelle archive.
Entretemps, LeMagIT croit comprendre que les molécules d’ADN en poudre de Biomemory pourraient bien devenir une encre. Selon l’un des documents que la startup a bien voulu partager, elle serait en pourparlers avec l’Administration française pour encoder dès 2024 des signatures numériques dans l’ADN des pigments qui serviraient à imprimer des billets de banque et autres documents infalsifiables.
L’ironie serait que la forme définitive du BioDrive soit une imprimante. Et que Biomemory finisse par réintroduire dans les entreprises l’archivage sur… papier.