Thèse soutenue

Reconstruction de génomes phasés

FR  |  
EN
Auteur / Autrice : Roland Faure
Direction : Dominique LavenierJean-François Flot
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/11/2024
Etablissement(s) : Université de Rennes (2023-....) en cotutelle avec Université libre de Bruxelles (1970-....)
Ecole(s) doctorale(s) : École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....)
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - GenScale
Jury : Président / Présidente : Rayan Chikhi
Examinateurs / Examinatrices : Dominique Lavenier, Jean-François Flot, Paola Bonizzoni, Thomas Derrien, Simon Dellicour
Rapporteurs / Rapporteuses : Christopher Quince, Alexander Dithley

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse propose des solutions pour améliorer l'assemblage des génomes à partir de lectures de séquençage de troisième génération (lectures longues). Plus précisément, elle se concentre sur l'amélioration de l'assemblage des (méta)génomes contenant plusieurs haplotypes, comme des génomes polyploïdes ou des souches bactériennes proches. Les assembleurs actuels ont du mal à séparer les haplotypes très similaires, et fusionnent généralement des (parties d')haplotypes, ce qui entraîne la perte de polymorphismes et d'hétérozygotie dans l'assemblage final. Ce travail présente une série de méthodes et de logiciels pour obtenir des assemblages contenant des haplotypes bien séparés. Plus précisément, GenomeTailor et HairSplitter transforment un assemblage obtenu avec des lectures longues erronées en un assemblage phasé, améliorant considérablement l'état de l'art lorsque de nombreuses souches sont présentes. Le logiciel Alice propose une nouvelle méthode, basée sur des nouveaux sketchs ``MSR'', pour assembler efficacement plusieurs haplotypes séquencés avec des lectures de haute fidélité. Enfin, cette thèse propose une nouvelle stratégie de scaffolding Hi-C basée sur le démêlage des graphes d'assemblage qui améliore considérablement les assemblages finaux, en particulier lorsque plusieurs haplotypes sont présents.