Thèse soutenue

Identification de souches d’une espèce bactérienne à partir de longues lectures

FR  |  
EN
Auteur / Autrice : Grégoire Siekaniec
Direction : Jacques NicolasÉric Guédon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2021
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - INRIA RENNES - GenScale
Jury : Président / Présidente : Élisa Fromont
Examinateurs / Examinatrices : Philippe Glaser, Romain Chauvet
Rapporteurs / Rapporteuses : Hélène Chiapello, David Vallenet

Résumé

FR  |  
EN

Actuellement, l'identification à partir de séquences génomiques de souches d'une espèce bactérienne présentes dans un échantillon reste un processus complexe et chronophage. Cette difficulté provient de la grande similarité génomique entre ces souches. Cependant, pouvoir les différencier rapidement est crucial dans de nombreux domaines, que ce soit en agroalimentaire (comme Streptococcus thermophilus) ou en santé publique. Récemment, la troisième génération de technologies de séquençage, et plus particulièrement les séquenceurs d'Oxford Nanopore Technologies, permettent d'obtenir des séquences longues mais erronées à partir d'échantillons contenant des souches bactériennes. Ces lectures contiennent plus d'informations que les anciennes lectures courtes de seconde génération. Or, actuellement, il existe encore assez peu de logiciels bioinformatiques développés pour identifier les souches bactériennes à partir de longues lectures erronées. Cette thèse propose donc une nouvelle méthode d'identification de souches bactériennes basée sur l'hypothèse qu'une lecture nanopore est suffisamment longue pour permettre de distinguer une souche (ou un groupe de souches) des autres. Cette méthode utilise une technique d'indexation particulièrement compacte d'une base de données de génomes connus. Elle repose également sur l'utilisation d'une graine espacée afin de rechercher les séquences dans l'index en étant moins sensible aux erreurs des lectures longues. La méthode est implémentée dans un logiciel appelé ORI (Oxford nanopore Reads Identification) qui a montré des résultats robuste d'identification bactérienne sur des données réelles de Streptococcus thermophilus.