Un logiciel de traduction permet un stockage efficace de quantités massives de données dans des molécules d’ADN

DNA Data Storage Concept
Concept de stockage de données ADN

DNA offre un moyen compact de stocker d’énormes quantités de données à moindre coût. Le Laboratoire national de Los Alamos a développé ADS Codex pour traduire les 0 et les 1 des fichiers informatiques numériques dans le code à quatre lettres de l’ADN.

ADS Codex traduit les données binaires en nucléotides qui peuvent être séquencés en molécules sous forme de fichiers pour une récupération ultérieure, ce qui permet des économies potentielles et un « stockage à froid » compact.

En soutien à un grand projet collaboratif de stockage d’énormes quantités de données dans ADN molécules, une équipe dirigée par le Laboratoire national de Los Alamos a développé une technologie habilitante clé qui traduit les fichiers binaires numériques en l’alphabet génétique à quatre lettres nécessaire au stockage moléculaire.

“Notre logiciel, l’Adaptive DNA Storage Codec (ADS Codex), traduit les fichiers de données de ce qu’un ordinateur comprend en ce que la biologie comprend”, a déclaré Latchesar Ionkov, informaticien à Los Alamos et chercheur principal du projet. « C’est comme traduire de l’anglais au chinois, mais en plus dur. »

« Notre logiciel, l’Adaptive DNA Storage Codec (ADS Codex), traduit les fichiers de données de ce qu’un ordinateur comprend en ce que la biologie comprend. – Latchesar Ionkov

Le travail est un élément clé du programme Intelligence Advanced Research Projects Activity (IARPA) Molecular Information Storage (MIST) pour apporter un stockage moins cher, plus grand et plus durable aux opérations de big data au sein du gouvernement et du secteur privé. L’objectif à court terme de MIST est d’écrire 1 téraoctet, soit un billion d’octets, et de lire 10 téraoctets en 24 heures pour 1 000 $. D’autres équipes affinent les composantes d’écriture (synthèse d’ADN) et de récupération (séquençage d’ADN) de l’initiative, tandis que Los Alamos travaille sur le codage et le décodage.

« L’ADN offre une solution prometteuse par rapport à la bande, la méthode dominante de stockage à froid, qui est une technologie datant de 1951 », a déclaré Bradley Settlemyer, chercheur en systèmes de stockage et programmeur de systèmes spécialisé dans le calcul haute performance à Los Alamos. « Le stockage de l’ADN pourrait perturber notre conception du stockage d’archives, car la conservation des données est si longue et la densité des données si élevée. Vous pouvez stocker tout YouTube dans votre réfrigérateur, plutôt que dans des acres et des acres de centres de données. Mais les chercheurs doivent d’abord surmonter quelques obstacles technologiques intimidants liés à l’intégration de différentes technologies. »

Pas perdu dans la traduction

Comparé à la méthode traditionnelle de stockage à long terme qui utilise des bobines de bande magnétique de la taille d’une pizza, le stockage de l’ADN est potentiellement moins cher, beaucoup plus compact physiquement, plus économe en énergie et plus durable – l’ADN survit pendant des centaines d’années et ne nécessite pas maintenance. Les fichiers stockés dans l’ADN peuvent également être très facilement copiés pour un coût négligeable.

La densité de stockage de l’ADN est stupéfiante. Considérez ceci : l’humanité générera environ 33 zettaoctets d’ici 2025, soit 3,3 suivis de 22 zéros. Toutes ces informations tiendraient dans une balle de ping-pong, avec de la place à revendre. La Bibliothèque du Congrès dispose d’environ 74 téraoctets, ou 74 millions de millions d’octets, d’informations – 6 000 de ces bibliothèques pourraient tenir dans une archive ADN de la taille d’une graine de pavot. Les 300 pétaoctets (300 000 téraoctets) de Facebook pourraient être stockés dans une demi-graine de pavot.

L’encodage d’un fichier binaire dans une molécule se fait par synthèse d’ADN. Technologie assez bien comprise, la synthèse organise les éléments constitutifs de l’ADN en divers arrangements, qui sont indiqués par des séquences de lettres A, C, G et T. Ils sont la base de tout code ADN, fournissant les instructions pour construire chaque être vivant. chose sur terre.

Le codex ADS de l’équipe de Los Alamos indique exactement comment traduire les données binaires – tous les 0 et les 1 – en séquences de quatre combinaisons de lettres de A, C, G et T. Le Codex gère également le décodage en binaire. L’ADN peut être synthétisé par plusieurs méthodes, et ADS Codex peut toutes les intégrer. L’équipe de Los Alamos a terminé une version 1.0 du Codex ADS et prévoit de l’utiliser en novembre 2021 pour évaluer les systèmes de stockage et de récupération développés par les autres équipes MIST.

Malheureusement, la synthèse de l’ADN fait parfois des erreurs dans le codage, donc ADS Codex s’attaque à deux grands obstacles à la création de fichiers de données ADN.

Premièrement, par rapport aux systèmes numériques traditionnels, les taux d’erreur lors de l’écriture sur le stockage moléculaire sont très élevés. L’équipe a donc dû trouver de nouvelles stratégies de correction d’erreur. Deuxièmement, les erreurs de stockage de l’ADN proviennent d’une source différente de celle du monde numérique, ce qui rend les erreurs plus difficiles à corriger.

“Sur un disque dur numérique, des erreurs binaires se produisent lorsqu’un 0 bascule vers un 1, ou vice versa, mais avec l’ADN, vous avez plus de problèmes dus aux erreurs d’insertion et de suppression”, a déclaré Ionkov. « Vous écrivez A, C, G et T, mais parfois vous essayez d’écrire A et rien n’apparaît, alors la séquence de lettres se déplace vers la gauche, ou elle tape AAA. Les codes de correction d’erreur normaux ne fonctionnent pas bien avec ça.

ADS Codex ajoute des informations supplémentaires appelées codes de détection d’erreurs qui peuvent être utilisées pour valider les données. Lorsque le logiciel reconvertit les données en binaire, il teste si les codes correspondent. Si ce n’est pas le cas, ACOMA essaie de supprimer ou d’ajouter des nucléotides jusqu’à ce que la vérification réussisse.

Mise à l’échelle intelligente

Les grands entrepôts contiennent les plus grands centres de données d’aujourd’hui, avec un stockage à l’échelle de l’exaoctet, c’est-à-dire un billion de millions d’octets ou plus. Coûtant des milliards de dollars à construire, alimenter et exploiter, ce type de centres de données numériques n’est peut-être pas la meilleure option car le besoin de stockage de données continue de croître de façon exponentielle.

Le stockage à long terme avec des supports moins chers est important pour la mission de sécurité nationale de Los Alamos et d’autres. « À Los Alamos, nous avons certaines des données numériques les plus anciennes et les plus grands magasins de données, à partir des années 1940 », a déclaré Settlemyer. « Il a toujours une valeur énorme. Parce que nous conservons les données pour toujours, nous sommes depuis longtemps à la pointe de la technologie lorsqu’il s’agit de trouver une solution de stockage à froid.

Settlemyer a déclaré que le stockage de l’ADN a le potentiel d’être une technologie perturbatrice car il traverse des domaines riches en innovation. Le projet MIST stimule une nouvelle coalition entre les anciens fournisseurs de stockage qui fabriquent des bandes, les sociétés de synthèse d’ADN, les sociétés de séquençage d’ADN et les organisations de calcul haute performance comme Los Alamos qui entraînent les ordinateurs dans des régimes de simulations scientifiques à plus grande échelle qui produire des quantités ahurissantes de données qui doivent être analysées.

Plongez plus profondément dans l’ADN

Quand la plupart des gens pensent à l’ADN, ils pensent à la vie, pas aux ordinateurs. Mais l’ADN est lui-même un code à quatre lettres pour transmettre des informations sur un organisme. Les molécules d’ADN sont constituées de quatre types de bases, ou nucléotides, identifiés chacun par une lettre : adénine (A), thymine (T), guanine (G) et cytosine (C).

Ces bases s’enroulent dans une chaîne torsadée l’une autour de l’autre – la double hélice familière – pour former la molécule. L’agencement de ces lettres en séquences crée un code qui indique à un organisme comment se former. L’ensemble complet des molécules d’ADN constitue le génome, le plan directeur de votre corps.

En synthétisant des molécules d’ADN, en les créant à partir de zéro, les chercheurs ont découvert qu’ils pouvaient spécifier ou écrire de longues chaînes de lettres A, C, G et T, puis relire ces séquences. Le processus est analogue à la façon dont un ordinateur stocke des informations en utilisant des 0 et des 1. La méthode a fait ses preuves, mais la lecture et l’écriture des fichiers codés par l’ADN prennent actuellement beaucoup de temps, a déclaré Ionkov.

« L’ajout d’un seul nucléotide à l’ADN est très lent. Cela prend une minute », a déclaré Ionkov. « Imaginez que l’écriture d’un fichier sur un disque dur prenne plus d’une décennie. Donc, ce problème est résolu en allant massivement parallèle. Vous écrivez des dizaines de millions de molécules simultanément pour l’accélérer.

Alors que diverses entreprises travaillent sur différentes manières de synthétiser pour résoudre ce problème, ADS Codex peut être adapté à chaque approche.

Le financement d’ADS Codex a été fourni par l’Intelligence Advanced Research Projects Activity (IARPA), une agence de recherche au sein du Bureau du directeur du renseignement national.

Related Posts