Algorithmes pour la synchronisation de données et leur stockage sur ADN

par Belaid Hamoum

Projet de thèse en Electronique, microelectronique, optique et lasers, optoelectronique microondes robotique

Sous la direction de Laura Conde Canencia.


  • Résumé

    Le stockage de données sur ADN est une technologie émergente qui utilise les acides nucléotides (càd. les briques de base) de l’ADN comme support pour le stockage d’information. Ce type de système est beaucoup plus compact qu’aucun autre grâce à la densité d’ADN. De plus, la capacité de longévité et de résistance à l'obsolescence de l'ADN est indéniable: l'ADN est un mécanisme de stockage de données universel et fondamental en biologie. Pour ces raisons et d'autres, l'ADN utilisé comme matériau de stockage de mémoire dans les produits de mémoire d'acide nucléique promet une alternative viable et attrayante aux mémoires électroniques. La diminution exponentielle des coûts de synthèse de l'ADN devrait rendre la technologie rentable pour le stockage de données à long terme dans environ dix ans. Plusieurs systèmes de stockage à base d'ADN ont été rapportés depuis 2012 [CHU12] [YON13] [GRA15] [ZHI16] [BOR16]. Des sociétés telles que Microsoft mènent des recherches sur ce sujet [MIC15] et ont déjà annoncé leur intention d'utiliser le stockage d'ADN dans leurs centres de données d'ici 2020 [MIC17]. Cependant, de nombreux problèmes restent à résoudre concernant cette technologie: les taux d'erreur aux étapes de synthèse et de séquençage sont encore trop élevés pour que le stockage de l'ADN puisse être considéré comme fiable ou robuste. Dans ce contexte, l’un des objectifs de cette thèse est de concevoir des schémas de codage pour éliminer (ou réduire) les différents types d’erreurs caractéristiques de la chaîne de stockage sur ADN: substitutions, suppressions et insertions. Nous allons de nous concentrer principalement sur la technologie de séquençage des nanopores, qui est actuellement la plus prometteuse. Les travaux de Conde-Canencia et Dolecek [LCC18] sur ce sujet ont permis de proposer un modèle de canal de séquençage d’ADN basé sur une analyse détaillée de la production de nanopores. Ce modèle ouvre de nouvelles perspectives dans la conception de codes efficaces afin d'améliorer les performances du stockage de données à base d'ADN. Nous allons utiliser le dispositif MinION [MinION18] pour obtenir des résultats de séquençage réels et pratiques à partir d’ADN synthétique contenant nos séquences codées. L’action exploratoire du Labex Cominlabs 2019 permet actuellement à la professeure Conde - Canencia de collaborer avec le groupe GenScale et la biologiste Emeline Roux à l’INRIA de Rennes. Cette collaboration lui a permis de se familiariser avec les techniques biochimiques liées au MinION et les compétences acquises seront sans doute exploitées lors de cette thèse. Un autre objectif de cette thèse est d'explorer les algorithmes de synchronisation et de déduplication dans les systèmes de données basés sur l’ADN. L'idée est de proposer des algorithmes qui traitent efficacement les erreurs d’édition (insertions, suppressions et substitutions) dans un contexte de stockage cloud où le support est l'ADN. En [LCC18b], Conde-Canencia et Dolecek ont présenté un algorithme original qui offre une déduplicationinline efficace grâce à l'utilisation de principes de la théorie de l'information pour résoudre ce problème plus classiquement abordé par la communauté informatique. Le prochain objectif à explorer lors de cette thèse est d’adapter ce type d'algorithme à l'alphabet réduit des nucléotides d'ADN. Cela pourrait potentiellement réduire les besoins en stockage et les coûts de synthèse des systèmes de stockage de données ADN, ce qui rendrait la technologie plus attrayante et réalisable.

  • Titre traduit

    Algorithms for DNA Storage and Synchronization


  • Résumé

    DNA storage is an emerging technology that uses DNA molecules to store data. This type of storage system is much more compact than any other due to the data density of the DNA. Moreover the capability for longevity and for resistance to obsolescence of DNA is undeniable: DNA is a universal and fundamental data storage mechanism in biology. For these and other reasons, DNA used as a memory-storage material in nucleic acid memory products promises a viable and compelling alternative to electronic memories. The exponential decrease in DNA synthesis costs should make the technology cost-effective for long-term data storage within about ten years. Several DNA-based storage systems have been reported since 2012 [CHU12] [YON13] [GRA15] [ZHI16] [BOR16]. Companies such as Microsoft are leading research on this topic [MIC15] and have already announced their plan to use DNA storage in their data centers by 2020 [MIC17]. However, there are still many issues to be solved regarding this technology: the error rates at the synthesis and sequencing steps are still too high for DNA storage to be considered as reliable or robust. In this context, one of the objectives of this PhD is to design coding schemes to eliminate (or reduce) the different types of errors in DNA storage: substitutions, deletions and insertions. We plan to mainly focus on the nanopore sequencing technology as it is currently the most promising one. Conde-Canencia and Dolecek have been collaborating on this topic and presented in [LCC18] a DNA sequencing channel model based on a detailed analysis of the nanopore output. This model opens new directions in the design of efficient error-correcting codes to improve the performance of DNA-based data storage. We also plan to specifically use the MinION device [MinION18] to obtain real and practical sequencing results from synthetic DNA that includes are coded sequences. Thanks to the current Labex Cominlabs project where Prof. Conde Canencia is collaborating with the GenScale group and biologist Emeline Roux at INRIA Rennes, we are getting familiar with the biochemical techniques related to the MinION and we have become an interdisciplinary team working on this emerging promising technology. The acquired skills will definitively be exploited during this PhD. Another objective of this PhD is to explore synchronization and deduplication algorithms in DNA-based data systems. The idea is to propose algorithms that efficiently deal with edit errors (insertions, deletions and substitutions) in a cloud storage context where the storage support are DNA sequences. In [LCC18b], Conde-Canencia and Dolecek developed an original algorithm that offers efficient inline data deduplication thanks to the use of information theory concepts to this computer science problem. Our next goal is to explore this kind of algorithms with the reduced alphabet of DNA nucleotides. This has the potential to reduce the storage needs and the synthesis costs of DNA data storage systems, making the technology more attractive and feasible.