Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

par Pierre Pericard

Thèse de doctorat en Informatique, automatique

Sous la direction de Hélène Touzet et de Samuel Blanquart.

Soutenue le 27-10-2017

à Lille 1 , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) , en partenariat avec Centre de recherche en informatique, signal et automatique de Lille (laboratoire) .


  • Résumé

    Les progrès récents en termes de séquençage d’ADN permettent maintenant d’accéder au matériel génétique de communautés microbiennes extraites directement d’échantillons environnementaux naturels. Ce nouveau domaine de recherche, appelé métagénomique, a de nombreuses applications en santé, en agro-alimentaire, en écologie, par exemple. Analyser de tels échantillons demande toutefois de développer de nouvelles méthodes bio-informatiques pour déterminer la composition taxonomique de la communauté étudiée. L’identification précise des organismes présents est en effet une étape essentielle à la compréhension des écosystèmes même les plus simples. Cependant, les technologies de séquençage actuelles produisent des fragments d’ADN courts et bruités, qui ne couvrent que partiellement les séquences complètes des gènes, ce qui pose un véritable défi pour l’analyse taxonomique à haute résolution. Nous avons développé MATAM, une nouvelle méthode bio-informatique dédiée à la reconstruction rapide et sans erreurs de séquences complètes de marqueurs phylogénétiques conservés, à partir de données brutes de séquençage. Cette méthode est composée d’une succession d’étapes qui réalisent la construction et l’analyse d’un graphe de chevauchement de lectures. Nous l’avons appliquée à l’assemblage de la petite sous-unité de l’ARN ribosomique sur des métagénomes simulés, synthétiques et réels. Les résultats obtenus sont de très bonne qualité et améliorent l’état de l’art.

  • Titre traduit

    Algorithms for conserved markers sequences reconstruction in metagenomics data


  • Résumé

    Recent advances in DNA sequencing now allow studying the genetic material from microbial communities extracted from natural environmental samples. This new research field, called metagenomics, is leading innovation in many areas such as human health, agriculture, and ecology. To analyse such samples, new bioinformatics methods are still needed to ascertain the studied community taxonomic composition because accurate organisms identification is a necessary step to understand even the simplest ecosystems. However, current sequencing technologies are generating short and noisy DNA fragments, which only partially cover the complete genes sequences, giving rise to a major challenge for high resolution taxonomic analysis. We developped MATAM, a new bioinformatic methods dedicated to fast reconstruction of low-error complete sequences from conserved phylogenetic markers, starting from raw sequencing data. This methods is a multi-step process that builds and analyses a read overlap graph. We applied MATAM to the reconstruction of the small sub unit ribosomal ARN in simulated, synthetic and genuine metagenomes. We obtained high quality results, improving the state of the art.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.