Beyond metagenomics: from analyzes by high-throughput sequencing to the development of bioinformatics strategies for the study of microbial communities in the scope of human health

par Guillaume Gautreau

Projet de thèse en Sciences de la vie et de la santé

Sous la direction de Claudine Medigue et de David Vallenet.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Structure et Dynamique des Systèmes Vivants (Gif-sur-Yvette, Essonne ; 2015-....) , en partenariat avec Génomique Métabolique (laboratoire) et de Université d'Évry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 03-10-2016 .


  • Résumé

    Avec le progrès des technologies de séquençage, de nouveaux types de projets ont vu le jour, les projets métagénomiques pour lesquels il s'agit non pas de séquencer un génome isolé, mais l'intégralité d'un écosystème (environnemental, clinique ou synthétique), y compris les espèces moins représentées (biosphère rare). Le séquençage haut débit de métagénomes microbiens apparaît comme un outil puissant d'exploration car il fournit non seulement une description génomique du contenu d'un échantillon (estimation de la biodiversité) mais également un aperçu des fonctions potentielles d'un environnement (capacités métaboliques par exemple). En outre, il donne l'opportunité de mettre en évidence des organismes non cultivables en laboratoire et d'étudier les relations entre tous les membres de l'écosystème dans le temps et l'espace. Associées à des approches fonctionnelles globales (métatranscriptomique, métaprotéomique, métabolomique), ces techniques devraient accroître notre compréhension du fonctionnement des écosystèmes. Parallèlement du point du vue purement applicatif, la détermination rapide et détaillée du contenu d'un métagénome apparaît comme un enjeu essentiel dans divers domaines comme la santé humaine (microbiome intestinal, diagnostic clinique, épidémiologie) ou même encore la menace bioterroriste. Plusieurs plateformes bioinformatiques ont été développées pour analyser des métagénomes microbiens cependant, aucune ne combine des données hétérogènes (données génomiques, transcriptomiques, épidémiologiques…) pour permettre une approche plus intégrative de l'analyse des communautés microbiennes. Dans le cadre de sa thèse, le/la candidat(e) devra donc développer des stratégies bioinformatiques innovantes et performantes pour étudier ces métagénomes microbiens obtenus par séquençage haut débit. Le travail du candidat s'organisera autour de trois points complémentaires : i) adapter et/ou développer de nouveaux algorithmes pour traiter non seulement un saut quantitatif dans les données mais également un saut qualitatif, notamment par l'intégration de données hétérogènes (données contextuelles concernant l'habitat, données taxonomiques, fonctions des gènes, expression des gènes, co-occurrence d'organismes, données épidémiologiques pour les échantillons cliniques) ; ii) mettre en place des outils statistiques pertinents et des métriques permettant non seulement d'analyser mais aussi de comparer ces biotopes ; iii) éprouver les techniques mises au point en 1) et 2), sur un certain nombre d'échantillons tests déjà séquencés à l'Institut de Génomique du CEA et dans le cadre de projets de recherche collaboratifs (projet NRBC PathoTrack, instance de la plateforme MicroScope dédiée aux génomes de référence du microbiome intestinal humain). Cette thèse se déroulera dans le laboratoire d'Analyse Bioinformatiques pour la Génomique et le Métabolisme (LABGeM) du Genoscope dont une des activités est centrée sur les méthodes d'analyse des données de génomique microbienne afin d'évaluer leurs capacités et leurs limites dans divers domaines d'étude tels que la recherche de variants, la transcriptomique et la métagénomique. Ce travail, qui s'effectuera dans le cadre de l'unité mixte de recherche du Genoscope, bénéficiera aussi des compétences des autres laboratoires notamment en microbiologie et biochimie.

  • Titre traduit

    Au delà de la métagénomique: des analyses par séquençage haut débit à la mise en place de stratégies bioinformatiques pour l'étude de communautés microbiennes en santé humaine


  • Résumé

    Advances in sequencing technologies (NGS) have opened new perspectives in the exploratory genomics, especially in metagenomes analysis that represent an entire ecosystem (environmental, clinical or synthetic). The high-throughput sequencing of microbial communities appears as a powerful exploration tool because it not only provides a description of a sample of genomic content (estimation of biodiversity), but also an overview of the functional potential of an environment (metabolic capabilities). In addition, it provides an opportunity to pinpoint non-cultivable organisms in the laboratory and to study the relationships between all members of the ecosystem through time and space. Associated with global functional approaches (metatranscriptomics, metaproteomics, metabolomics), these techniques should increase our understanding of ecosystem. Several bioinformatics software have been developed to analyze microbial metagenomes, however none makes it possible to combine heterogeneous data (genomic, transcriptomic, epidemiological ...), and a more integrative analysis of these communities is clearly required. As part of his thesis, the candidate will have to develop innovative and powerful bioinformatics processes to study these microbial metagenomes. The proposed project will be organized around three complementary points, namely i) adapt and/or develop new algorithms to address an increase of data in terms of both quantity and quality, especially by the integration of heterogeneous data (contextual data about the habitat, taxonomic data, gene functions, gene expression, co-occurrence of organisms, epidemiological data for clinical samples); ii) implement statistical tools and metrics to analyze and compare these habitats/ecosystems; iii) test the techniques developed in 1) and 2) on test samples previously sequenced at CEA-Genoscope for the need of various projects (NRBC PathoTrack project, MicroScope platform instance dedicated to reference microbial genomes from human intestinal tract microbiome). This thesis will take place in the context of Genoscope: one of its main activity focuses on the control of microbial NGS data to assess their capabilities and limitations in various fields of study such as variants discovery, transcriptomics andmetagenomics. This work, which will be carried out in the Laboratory of Bioinformatics for Genomics and Metabolism (LABGeM) will also benefit from the expertise of different Genoscope laboratories (Laboratory of Genomics and Biochemistry of Metabolism, Chemistry Laboratory, etc).