Thèse soutenue

Analyse de la diversité microbienne par séquençage massif : méthodes et applications
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Najwa Taïb
Direction : Didier Debroas
Type : Thèse de doctorat
Discipline(s) : Génétique, Physiologie et Bioinformatique
Date : Soutenance le 29/08/2013
Etablissement(s) : Clermont-Ferrand 2
Ecole(s) doctorale(s) : École doctorale des sciences de la vie, santé, agronomie, environnement (Clermont-Ferrand)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire Microorganismes : Génome et environnement
Laboratoire : Microorganismes : génome et environnement / LMGE
Jury : Président / Présidente : Jean-François Humbert
Examinateurs / Examinatrices : Éric Coissac, Thomas Pommier, Engelbert Mephu-Nguifo, Gisèle Bronner
Rapporteurs / Rapporteuses : Jean-François Humbert, Éric Coissac

Résumé

FR  |  
EN

Les avancées des nouvelles techniques de séquençage (NGS) ont permis dans le cadre des études en écologie microbienne de passer de l'analyse de quelques centaines de séquences par étude à des centaines de millions de séquences. Cette différence quantitative des données produites a induit des différences qualitatives quant aux études réalisées. En effet, avec le changement du type de données, les approches classiques d'analyse ne peuvent être appliquées et il est devenu nécessaire de définir de nouvelles stratégies en tenant compte des contraintes que posent ces données. Alors qu'il était possible d'insérer classiquement quelques dizaines de séquences issues des techniques de première génération dans des phylogénies expertisées, le nombre de séquences généré aujourd'hui par les NGS à chaque expérience rend cette tâche irréalisable et nécessite la mise en place de nouvelles stratégies et l'utilisation d'outils adaptés. Par ailleurs, les outils disponibles d'analyse de la diversité microbienne adaptés aux amplicons de nouvelle génération, implémentent des approches probabilistes et/ou de recherche de similitude pour l'identification des séquences environnementales. L'approche phylogénétique quant à elle, bien qu'elle soit la plus robuste, n'est pas utilisée pour l'annotation taxonomique de ce type de données du fait de ses besoins en temps et en ressources de calcul. Au-delà de l'approche d'annotation taxonomique, les nouvelles techniques de séquençage posent également le problème de la qualité des séquences produites et son impact sur l'estimation de la diversité. Ainsi, ce travail de thèse avait pour objectif la définition d'une stratégie d'analyse bioinformatique de données de séquençage massif dans le contexte de l'étude de la diversité microbienne, en tenant compte des limitations imposées par les ressources informatiques actuelles (matérielles et logicielles) d'un côté, et de l'avantage des méthodes phylogénétiques par rapport aux autres approches d'annotation taxonomique. Ce travail a donné lieu au développement d'une chaîne de traitement proposant une série d'analyses allant des séquences brutes jusqu'à la visualisation des résultats, tout en replaçant les séquences environnementales dans un contexte évolutif. L'approche développée a été optimisée pour la gestion de gros volumes de données, et a été comparée en terme de précision d'affiliation aux autres approches communément utilisées en écologie microbienne. Les tests et simulations ont montré qu'à partir d'une taille d'amplicons de 400 pb, l'affiliation phylogénétique avait les meilleurs résultats mais aussi, que la qualité de cette affiliation différait selon la région hypervariable ciblée. La chaîne de traitements mise en place a ensuite été par implémentée dans un contexte de calcul à haute performance, notamment sur un cluster de calcul, pour proposer un service web dédié à l'analyse de la diversité microbienne.