Apprentissage statistique pour l'identification d'OTUs et la caractérisation de la biodiversité

par Mohamed anwar Abouabdallah

Projet de thèse en Mathématiques appliquées et calcul scientifique

Sous la direction de Olivier Coulaud et de Nathalie Peyrard.

Thèses en préparation à Bordeaux , dans le cadre de École doctorale de mathématiques et informatique , en partenariat avec LaBRI - Laboratoire Bordelais de Recherche en Informatique (laboratoire) et de Supports et Algorithmes pour les applications numériques hautes performances (SATANAS) (equipe de recherche) depuis le 05-11-2019 .


  • Résumé

    L'étude de la biologie associe des études de formes (la diversité) et des modélisations de processus (fonctionnels ou évolutifs). Pleiade répond au double défi de la mesure rapide et pertinente de dissimilarités entre objets biologiques et de l'exploration des relations entre la diversité des traits et la diversité de fonctions, à plusieurs échelles. Nous développons des algorithmes, modèles, et cadres logicielles pour des applications en écologie, évolution et biotechnologie. Il s'agit d'une offre de thèse dans le contexte d'une collaboration entre l'Inra et l'Inria, associant des compétences du domaine de l'écologie, de la modélisation statistique, et du calcul intensif. Il s'agit de construire des OTUs (Operational Taxonomic Units) avec les outils du metabarcoding (et en les faisant évoluer) à partir de jeux de données de communautés de protistes issus de NGS (Next Generation Sequencing) avec pour la thèse un enjeu de passage à l'échelle pour les méthodes statistiques vue la taille des jeux de données. Le travail attendu est donc de nature pluridisciplinaire, avec une compétence disciplinaire de base en modélisation statistique et calcul intensif. Le candidat devra montrer une ouverture vers les aspects finalisés de ces disciplines, notamment en écologie et taxonomie numériques. Le candidat sera encadré par trois équipes : modélisation statistique (unité INRA MIAT à Toulouse, Nathalie Peyrard), métabarcoding et analyses de données (équipe Pleiade, INRIA SO & INRA BioGeCo, Alain Franc), et High Throughput Data Analysis (équipe Hiepacs, INRIA SO, Olivier Coulaud). L'aptitude à travailler dans un contexte pluridisciplinaire est à la fois un atout de ce poste et une compeétence requise.

  • Titre traduit

    Statistical learning for OTU identification and biodiversity characterization


  • Résumé

    The study of biology combines studies of forms (diversity) and process modelling (functional or evolutionary). Pleiade responds to the dual challenge of rapidly and appropriately measuring dissimilarities between biological objects and exploring the relationships between the diversity of features and the diversity of functions at multiple scales. We develop algorithms, models, and software frameworks for applications in ecology, evolution and biotechnology. This is a thesis offer in the context of a collaboration between INRA and INRA, combining skills in ecology, statistical modelling and intensive computing. It is a question of building OTUs (Operational Taxonomic Units) with metabarcoding tools (and making them evolve) from data sets of protist communities from NGS (Next Generation Sequencing) with for the thesis a scale up challenge for statistical methods given the size of the data sets. The expected work is therefore multidisciplinary in nature, with a basic disciplinary competence in statistical modelling and intensive computing. The candidate must show an openness towards the finalised aspects of these disciplines, in particular in digital ecology and taxonomy. The candidate will be supervised by three teams: statistical modelling (INRA MIAT unit in Toulouse, Nathalie Peyrard), metabarcoding and data analysis (Pleiade team, INRIA SO & INRA BioGeCo, Alain Franc), and High Throughput Data Analysis (Hiepacs team, INRIA SO, Olivier Coulaud). The ability to work in a multidisciplinary context is both an asset of this position and a required skill.