Nano-séquenceur de protéines assisté par intelligence artificielle
| Auteur / Autrice : | Andreina Urquiola Hernandez |
| Direction : | Patrick Senet, Adrien Nicolaï, Christophe Guyeux |
| Type : | Thèse de doctorat |
| Discipline(s) : | Physique |
| Date : | Soutenance le 24/02/2025 |
| Etablissement(s) : | Dijon, Université Bourgogne Europe |
| Ecole(s) doctorale(s) : | École doctorale Carnot-Pasteur (Besançon ; Dijon ; 2012-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire Interdisciplinaire Carnot de Bourgogne (ICB) (Dijon) |
| Jury : | Président / Présidente : Guillaume Maurin-Pasturel |
| Examinateurs / Examinatrices : Patrick Senet, Adrien Nicolaï, Christophe Guyeux, Aleksandra Radenovic, Stéphanie Baud, Fabien Montel | |
| Rapporteurs / Rapporteuses : Aleksandra Radenovic, Stéphanie Baud |
Mots clés
Résumé
Les technologies de séquençage ont révolutionné la biologie moléculaire en permettant l’analyse directe des séquences d’ADN et de protéines, ce qui est crucial pour : i) approfondir nos connaissances des systèmes biologiques, ii) le diagnostic précoce de maladies, ou iii) le stockage des données biomoléculaires. Dans cette thèse, nous avons exploré pleinement le potentiel des nanopores solides (SSNs) pour la détection de molécules uniques (protéines), en particulier les membranes nanoporeuses 2-D de type MoS2 . Le principe général de détection d’une molécule unique par des SSNs est que, lorsqu’une molécule biologique (chargée) dans une solution ionique traverse le nanopore, celle-ci bloque le flux des ions durant son passage. La mesure ultra-rapide des fluctuations de courant fournit ainsi des informations structurales sur la molécule à partir de l’analyse de l’amplitude des chutes de courant et de leurs durées, interprétées comme des évènements de translocation. Tout d’abord, à l’aide de simulations de dynamique moléculaire classique ''tous atomes'' en solvant explicite et non biaisées, nous avons analysé la dynamique de translocation des vingt acides aminés qui composent les protéines et identifié leurs empreintes de courant ionique à partir de techniques d’apprentissage machine. Plus précisément, des méthodes d’apprentissage non supervisées ont été utilisées pour regrouper les niveaux de blocage du courant ionique extraits des séries temporelles enregistrées pendant les simulations. Cela nous a permis de discriminer avec précision les acides aminés chargés positivement et négativement des acides aminés neutres. Ces résultats prometteurs ouvrent la voie au séquençage ''à gros grains'' des protéines basé sur la charge des acides aminés, un nouveau concept introduit pour la première fois dans ce travail. Deuxièmement, en utilisant une procédure de dynamique moléculaire similaire, nous avons réalisé des simulations de translocation pour douze séquences de peptides distinctes faites d’un acide aminé chargé positivement, d’un chargé négativement et de quatre neutres (composition identique). L’objectif était d’encoder des informations dans ces séquences de peptides et d’explorer le potentiel d’utilisation des nanopores solides de type MoS2 pour des applications de stockage de données moléculaires. En utilisant des techniques d’apprentissage machine supervisées cette fois-ci, en particulier des modèles de classification, nous avons identifié les séquences de peptides spécifiques capables de représenter de manière fiable des données binaires. Les principales caractéristiques de translocation, comme la chute du courant ionique et le temps de résidence dans le pore, ont été extraites et analysées pour discriminer les paires de séquences idéales représentant les bits 0 et 1. Cette approche innovante montre la faisabilité de réaliser des systèmes de stockage de données moléculaires denses, robustes et stables à l’aide de séquences de peptides composés de 3 acides aminés différents, ouvrant la voie aux solutions évolutives et durables pour l’encodage d’informations au niveau moléculaire. Enfin, nous avons exploré l’utilisation de méthodes d’apprentissage profond pour prédire la dynamique des acides aminés des peptides et les fluctuations du courant ionique enregistrées pendant leur passage à travers des nanopores de type MoS2 . En utilisant des réseaux de neurones Long Short-Term Memory (LSTM), qui excellent dans la capture de dépendances temporelles complexes dans les données de séries temporelles, nous avons prédit des courants ioniques et en avons déduit les positions des acides aminés à partir des séries temporelles du courant ionique extraites des simulations de dynamique moléculaire. Ces résultats préliminaires concernant l’intégration des techniques d’apprentissage profond pour étudier des séries temporelles enregistrées par nanopores montrent leur potentiel significatif pour analyser des observations expérimentales.