Thèse soutenue

Stockage intelligent sur ADN synthétique pour l'archivage des images numériques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Eva Gil San Antonio
Direction : Marc Antonini
Type : Thèse de doctorat
Discipline(s) : Automatique et traitement du signal et des images
Date : Soutenance le 31/03/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Pascal Barbry
Examinateurs / Examinatrices : Marc Antonini, Pascal Barbry, Dominique Lavenier, Thomas Heinis, Athanassios Skodras, Anthony Genot, Olgica Milenkovic, Reinhard Heckel
Rapporteurs / Rapporteuses : Dominique Lavenier, Thomas Heinis, Athanassios Skodras

Résumé

FR  |  
EN

La croissance rapide de la consommation de données numériques, communément appelée "l’explosion des données", présente un défi important pour le stockage des données. L’univers numérique devrait atteindre 175 zettaoctets d’ici 2025, une grande partie de ces données étant rarement consultées, mais nécessitant toujours un archivage sécurisé pour des raisons de sécurité et de conformité réglementaire. Les dispositifs de stockage conventionnels, tels que les disques durs, ont une durée de vie limitée de 10 à 20 ans, ce qui rend nécessaire de trouver des solutions alternatives pour la préservation des données à long terme qui soient non seulement rentables, mais également économes en énergie. Des études récentes ont montré que l’ADN est un candidat très prometteur pour l’archivage à long terme des données numériques. L’ADN a une capacité allant jusqu’à 215 pétaoctets par gramme et une durée de vie théorique allant jusqu’à 1000 ans, ce qui en fait une option appropriée pour stocker de grandes quantités de données pendant des siècles, voire plus. Cependant, le processus d’encodage des données numériques dans un flux quaternaire compose des symboles A, T, C et G, qui représentent les quatre composants de la molécule d’ADN, tout en respectant d’importantes contraintes d’encodage, fait l’objet de recherches en cours. Des travaux pionniers ont proposé différents algorithmes pour le codage de l’ADN, mais des améliorations sont encore possibles. Dans ce contexte, une nouvelle génération de séquenceurs utilisant des nanopores offre la possibilité de lire des brins d’ADN beaucoup plus rapidement et à moindre cout, avec l’inconvénient d’un taux d’erreur plus élevé. Cette thèse porte sur l’étude de ces erreurs afin d’adapter et de rendre encore plus robuste le codage quaternaire des données. De plus, des techniques de post-traitement adaptées au contexte de stockage des données ADN sont proposées pour corriger les erreurs restantes après décodage. Les résultats d’expériences en laboratoire sont présentés dans lesquels diverses images ont été stockées dans l’ADN à l’aide de différentes méthodes de codage et séquencées à l’aide de différentes technologies telles que Illumina et nanopore. Nous présentons une étude des erreurs introduites avec chaque plate-forme de séquençage et la robustesse des différentes solutions de codage testées expérimentalement. L’objectif de cette recherche est de contribuer au développement de systèmes efficaces et fiables de stockage d’archives sur ADN.