Inférence des interactions entre processus évolutifs

par Abdelkader Behdenna

Thèse de doctorat en Génétique

Sous la direction de Guillaume Achaz et de Amaury Lambert.

Soutenue le 14-03-2016

à Paris 6 , dans le cadre de École doctorale Complexité du vivant (Paris) , en partenariat avec Adaptation aux milieux extrêmes (laboratoire) .

Le jury était composé de Guy Perrière, Alessandra Carbone, Thomas Bataillon, Sophie Schbath, Julien Dutheil.


  • Résumé

    Au cours de cette thèse, nous avons développé un outil pour détecter la coévolution, c'est à dire l'évolution conjointe de différentes entités biologiques (nucléotides, acides aminés, fonctions biologiques), à différentes échelles (moléculaire, organe). Cet outil s'applique sur des arbres phylogénétiques sur lesquels des évènements évolutifs (mutations, gains/pertes de fonctions biologiques) sont placés. Nous nous plaçons dans un cadre abstrait dans le but de travailler sur les processus conduisant à l'apparition d'évènements évolutifs au sens large le long des lignées d'un arbre phylogénétique. Cet outil est constitué de deux parties distinctes, chacune ayant ses propres spécificités.D'une part, nous avons produit une première méthode simple, très efficace, permettant de détecter parmi un très grand nombre de tels processus, quelles paires d'évènements semblent apparaître de manière conjointe dans l'arbre. Grâce à un formalisme mathématique utilisant les propriétés de l'algèbre bilinéaire, des calculs exacts d'espérance, de variance et même de distributions de probabilités sont possibles et permettent d'associer à ces paires détectées des p-values exactes, rendant cette méthode très précise.D'autre part, nous avons développé un modèle de coévolution entre de tels processus évolutifs. Ce modèle mathématique limite considérablement le nombre de paramètres utilisés et nous a permis de calculer et d'optimiser une fonction de vraisemblance. Cette optimisation revient à rechercher les paramètres du modèles expliquant au mieux les données contemporaines observées, et nous permet ainsi, toujours selon notre modèle, d'établir le scénario le plus probable ayant mené aux données observées.Cette seconde méthode est plus gourmande en temps de calcul, ce qui invite à associer les deux méthodes dans un pipeline nous permettant de traiter efficacement un grand nombre de paires avant d'aller plus loin dans notre étude et tester les paires les plus encourageantes à l'aide de notre modèle mathématique, dans le but de décrire un scénario interprétable dans un contexte biologique. Nous avons testé cet outil à l'aide de simulations, avant de l'appliquer à deux exemples biologiques très différents : le lien entre intracellularité et perte de flagelle chez Escherichia coli, et l'étude de toutes les paires de nucléotides dans des séquences d'ARNr 16S d’un échantillon de gamma-entérobactéries.

  • Titre traduit

    Inference of the interactions between evolutionary processes


  • Résumé

    In this thesis, we have developed a tool to detect co-evolution, ie the joined evolution of different biological entities (nucleotides, amino acids, organic functions), on different scales (molecular, organ). This tool is applied to phylogenetic trees on which evolutionary events (mutations, gain / loss of biological functions) are placed. We consider an abstract framework in order to work on the processes leading to the emergence of evolutionary events along the lineages of a phylogenetic tree. This tool consists of two separate parts, each with its own specificities.On the one hand, we have produced a first simple, highly effective method to detect from a very large number of such processes, which pairs events seem to appear jointly in the tree. Using a mathematical formalism using the properties of the bilinear algebra, exact calculations of expectancy, variance and even probability distributions are possible and allow to associate exact p-values to these pairs, making this method very precise.On the other hand, we have developed a model of coevolution between such evolutionary processes. This mathematical model severely limits the number of parameters used and allows us to calculate and maximize a likelihood function. This optimization is similar to searching the parameters of a model explaining the best the observed contemporary data, and allows us as well, according to our model, to determine the most likely scenario that led to the observed data.This second method requires more computing time, which invites to combine the two methods in a pipeline allowing us to efficiently process a large number of pairs before proceeding further in our study and test the most promising pairs using our mathematical model in order to describe a scenario interpreted in a biological context. We have tested this tool by using simulations, before applying it to two very different biological examples: the link between intracellularity and loss of flagellum in Escherichia coli, and the study of all the pairs of nucleotides in sequences 16S rRNA of a sample of gamma-Enterobacteria.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.