Thèse soutenue

Inférence des interactions entre processus évolutifs

FR  |  
EN
Auteur / Autrice : Abdelkader Behdenna
Direction : Guillaume AchazAmaury Lambert
Type : Thèse de doctorat
Discipline(s) : Génétique
Date : Soutenance le 14/03/2016
Etablissement(s) : Paris 6
Ecole(s) doctorale(s) : École doctorale Complexité du vivant (Paris)
Partenaire(s) de recherche : Laboratoire : Biologie des organismes et écosystèmes aquatiques (Paris ; 2009-....)
Jury : Président / Présidente : Alessandra Carbone
Examinateurs / Examinatrices : Sophie Schbath, Julien Dutheil
Rapporteurs / Rapporteuses : Guy Perrière, Thomas Bataillon

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Au cours de cette thèse, nous avons développé un outil pour détecter la coévolution, c'est à dire l'évolution conjointe de différentes entités biologiques (nucléotides, acides aminés, fonctions biologiques), à différentes échelles (moléculaire, organe). Cet outil s'applique sur des arbres phylogénétiques sur lesquels des évènements évolutifs (mutations, gains/pertes de fonctions biologiques) sont placés. Nous nous plaçons dans un cadre abstrait dans le but de travailler sur les processus conduisant à l'apparition d'évènements évolutifs au sens large le long des lignées d'un arbre phylogénétique. Cet outil est constitué de deux parties distinctes, chacune ayant ses propres spécificités.D'une part, nous avons produit une première méthode simple, très efficace, permettant de détecter parmi un très grand nombre de tels processus, quelles paires d'évènements semblent apparaître de manière conjointe dans l'arbre. Grâce à un formalisme mathématique utilisant les propriétés de l'algèbre bilinéaire, des calculs exacts d'espérance, de variance et même de distributions de probabilités sont possibles et permettent d'associer à ces paires détectées des p-values exactes, rendant cette méthode très précise.D'autre part, nous avons développé un modèle de coévolution entre de tels processus évolutifs. Ce modèle mathématique limite considérablement le nombre de paramètres utilisés et nous a permis de calculer et d'optimiser une fonction de vraisemblance. Cette optimisation revient à rechercher les paramètres du modèles expliquant au mieux les données contemporaines observées, et nous permet ainsi, toujours selon notre modèle, d'établir le scénario le plus probable ayant mené aux données observées.Cette seconde méthode est plus gourmande en temps de calcul, ce qui invite à associer les deux méthodes dans un pipeline nous permettant de traiter efficacement un grand nombre de paires avant d'aller plus loin dans notre étude et tester les paires les plus encourageantes à l'aide de notre modèle mathématique, dans le but de décrire un scénario interprétable dans un contexte biologique. Nous avons testé cet outil à l'aide de simulations, avant de l'appliquer à deux exemples biologiques très différents : le lien entre intracellularité et perte de flagelle chez Escherichia coli, et l'étude de toutes les paires de nucléotides dans des séquences d'ARNr 16S d’un échantillon de gamma-entérobactéries.