Thèse soutenue

Reconstitution de pan-génomes microbiens par séquençage métagénomique aléatoire : Application à l’étude du microbiote intestinal humain

FR  |  
EN
Auteur / Autrice : Florian Plaza onate
Direction : Stanislav Dusko EhrlichFrédéric Magoulès
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie et de la santé
Date : Soutenance le 10/12/2018
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
Laboratoire : MetaGenoPolis (Jouy-en-Josas, Yvelines ; 2012-....) - MetaGenoPolis
Jury : Président / Présidente : Claudine Médigue
Examinateurs / Examinatrices : Rayan Chikhi
Rapporteurs / Rapporteuses : Didier Debroas, Pierre Peterlongo

Résumé

FR  |  
EN

L’avènement du séquençage métagénomique aléatoire a révolutionné la microbiologie en permettant la caractérisation sans culture préalable de communautés microbiennes complexes telles que le microbiote intestinal humain. Des outils bioinformatiques récemment développés atteignent une résolution au niveau de la souche en recensant des gènes accessoires ou en capturant des variants nucléotidiques (SNPs). Toutefois, ces outils sont limités par l’étendue des génomes de référence disponibles qui sont loin de couvrir toute la variabilité microbienne. En effet, de nombreuses espèces n’ont pas encore été séquencées ou sont représentées par seulement quelques génomes.La création de catalogues de gènes non redondants par assemblage de novo suivie du regroupement des gènes co-abondants révèlent une partie de la matière noire microbienne en reconstituant le répertoire de gènes d’espèces potentiellement inconnues. Bien que les méthodes existantes identifient avec précision les gènes core présents dans toutes les souches d’une espèce, elles omettent de nombreux gènes accessoires ou les divisent en petits groupes de gènes qui ne sont pas associés aux core génomes. Or, capturer ces gènes accessoires est indispensable en recherche clinique et épidémiologique car ces derniers assurent des fonctions spécifiques à certaines souches telles que la pathogénicité ou la résistance aux antibiotiques.Lors de cette thèse, nous avons développé MSPminer, un logiciel performant qui reconstitue et structure des pan-génomes d’espèces métagénomiques (ou MSPs pour Metagenomic Species Pan-genomes) en regroupant les gènes co-abondants dans un ensemble d’échantillons métagénomiques. MSPminer s’appuie sur une nouvelle mesure robuste de la proportionnalité couplée à un classificateur empirique pour regrouper et distinguer les gènes core mais aussi les gènes accessoires des espèces microbiennes.Grâce à MSPminer, nous avons structuré un catalogue de 9,9 millions de gènes du microbiote intestinal humain en 1 661 MSPs. L’homogénéité de l’annotation taxonomique, de la composition nucléotidique ainsi que la présence de gènes essentiels indiquent que les MSPs ne correspondent pas à des chimères mais à des objets biologiquement cohérents regroupant des gènes provenant de la même espèce. Parmi ces MSPs, 1 301 (78%) n’ont pas pu être annotées au niveau espèce montrant que de nombreux microorganismes colonisant l’intestin humain demeurent inconnus malgré les progrès substantiels des techniques de culture microbienne. Remarquablement, les MSPs capturent bien plus de gènes que les clusters générés par les outils existants tout en garantissant une spécificité élevée.Cet ensemble de MSPs peut d’ores et déjà être utilisé pour le profilage taxonomique et la découverte de biomarqueurs dans des échantillons de selles humaines. Ainsi, nous tirons parti des MSPs pour comparer l’impact sur le microbiote intestinal des deux principaux types de chirurgie bariatrique, la gastrectomie par laparoscopie (LSG) et la dérivation gastrique de Roux-en-Y (LRYGB). Enfin, les MSPs ouvrent la voie à des analyses au niveau souche. Dans une autre cohorte, nous avons mis en évidence l’existence de sous-espèces associées à l’origine géographique de l’hôte en étudiant les profils de présence/absence des gènes accessoires groupés dans les MSPs.