Solutions d'amélioration des études de métagénomique ciblée

par Léa Siegwald

Thèse de doctorat en Génétique, génomique, bioinformatique

Sous la direction de Yves Lemoine et de Hélène Touzet.

Soutenue le 23-03-2017

à Lille 2 , dans le cadre de École doctorale Biologie-Santé (Lille) , en partenariat avec Center for Infection and Immunity of Lille (laboratoire) et de Centre d'infection et d'immunité de Lille - Center for Infection & Immunity of Lille (laboratoire) .

Le jury était composé de Hélène Touzet.


  • Résumé

    La métagénomique ciblée, étude de la composition et de la diversité des communautés microbiennes présentes dans différents échantillon biologiques sur la base d'un marqueur génomique, a connu un véritable essor lors de cette dernière décennie grâce à l'arrivée du séquençage haut-débit. Faisant appel à des outils de biologie moléculaire et de bioinformatique, elle a été à l’origine de substantiels progrès dans les domaines de l’évolution et de la diversité microbienne. Cependant, de nouvelles problématiques sont apparues avec le séquençage haut-débit : la génération exponentielle de données soulève des problèmes d'analyse bioinformatique, qui doit être adaptée aux plans d'expérience et aux questions biologiques associées. Cette thèse propose des solutions d'amélioration des études de métagénomique ciblée par le développement d'outils et de méthodes innovantes, apportant une meilleure compréhension des biais d'analyse inhérents à de telles études, et une meilleure conception des plans d'expérience. Tout d'abord, une expertise du pipeline d'analyse utilisé en production sur la plate-forme PEGASE-biosciences a été menée. Cette évaluation a révélé la nécessité de mettre en place une méthode d'évaluation formelle de pipelines d'analyses de données de métagénomique ciblée, qui a été développée sur la base de données simulées et réelles, et de métriques d'évaluation adaptées. Cette méthode a été utilisée sur plusieurs pipelines d'analyse couramment utilisés par la communauté, tout comme sur de nouvelles approches d'analyse jamais utilisées dans un tel contexte. Cette évaluation a permis de mieux comprendre les biais du plan d'expérience qui peuvent affecter les résultats et les conclusions biologiques associées. Un de ces biais majeurs est le choix des amorces d'amplification de la cible ; un logiciel de design d'amorces adaptées au plan d'expérience a été spécifiquement développé pour minimiser ce biais. Enfin, des recommandations de montage de plan d'expérience et d'analyse ont été émises afin d'améliorer la robustesse des études de métagénomique ciblée.

  • Titre traduit

    Solutions to improve targeted metagenomics studies


  • Résumé

    Targeted metagenomics is the study of the composition of microbial communities in diverse biological samples, based on the sequencing of a genomic locus. This application has boomed over the last decade thanks to the democratisation of high-throughput sequencing, and has allowed substantial progress in the study of microbial evolution and diversity. However, new problems have emerged with high-throughput sequencing : the exponential generation of data must be properly analyzed with bioinformatics tools fitted to the experimental designs and associated biological questions. This dissertation provides solutions to improve targeted metagenomics studies, by the development of new tools and methods allowing a better understanding of analytical biases, and a better design of experiments. Firstly, an expert assessment of the analytical pipeline used on the PEGASE-biosciences plateform has been performed. This assessment revealed the need of a formal evaluation method of analytical pipelines used for targeted metagenomics analyses. This method has been developed with simulated and real datasets, and adequate evaluation metrics. It has been used on several analytical pipelines commonly used by the scientific community, as well as on new analytical methods which have never been used in such a context before. This evaluation allowed to better understand experimental design biases, which can affect the results and biological conclusions. One of those major biases is the design of amplification primers to target the genomic locus of interest. A primer design software, adaptable to different experimental designs, has been specifically developed to minimize this bias. Finally, analytical guidelines and experimental design recommendations have been formulated to improve targeted metagenomics studies.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de droit et de la santé. Service Commun de la Documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.