Reconstruction de génomes phasés
Auteur / Autrice : | Roland Faure |
Direction : | Dominique Lavenier, Jean-François Flot |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 27/11/2024 |
Etablissement(s) : | Université de Rennes (2023-....) en cotutelle avec Université libre de Bruxelles (1970-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - GenScale |
Jury : | Président / Présidente : Rayan Chikhi |
Examinateurs / Examinatrices : Dominique Lavenier, Jean-François Flot, Paola Bonizzoni, Thomas Derrien, Simon Dellicour | |
Rapporteurs / Rapporteuses : Christopher Quince, Alexander Dithley |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse propose des solutions pour améliorer l'assemblage des génomes à partir de lectures de séquençage de troisième génération (lectures longues). Plus précisément, elle se concentre sur l'amélioration de l'assemblage des (méta)génomes contenant plusieurs haplotypes, comme des génomes polyploïdes ou des souches bactériennes proches. Les assembleurs actuels ont du mal à séparer les haplotypes très similaires, et fusionnent généralement des (parties d')haplotypes, ce qui entraîne la perte de polymorphismes et d'hétérozygotie dans l'assemblage final. Ce travail présente une série de méthodes et de logiciels pour obtenir des assemblages contenant des haplotypes bien séparés. Plus précisément, GenomeTailor et HairSplitter transforment un assemblage obtenu avec des lectures longues erronées en un assemblage phasé, améliorant considérablement l'état de l'art lorsque de nombreuses souches sont présentes. Le logiciel Alice propose une nouvelle méthode, basée sur des nouveaux sketchs ``MSR'', pour assembler efficacement plusieurs haplotypes séquencés avec des lectures de haute fidélité. Enfin, cette thèse propose une nouvelle stratégie de scaffolding Hi-C basée sur le démêlage des graphes d'assemblage qui améliore considérablement les assemblages finaux, en particulier lorsque plusieurs haplotypes sont présents.