Modélisation de l’articulation des mécanismes sélectifs et neutres dans l’évolution des séquences d’ADN codant pour des protéines

par Thibault Latrille

Thèse de doctorat en Génomique évolutive

Sous la direction de Nicolas Lartillot.

Soutenue le 30-11-2020

à Lyon , dans le cadre de École Doctorale Evolution Ecosystèmes Microbiologie Modélisation , en partenariat avec Université Claude Bernard (Lyon) (établissement opérateur d’inscription) et de Laboratoire de Biométrie et Biologie Evolutive (laboratoire) .

Le président du jury était Céline Brochier-Armanet.

Le jury était composé de Nicolas Lartillot, Julien Dutheil, Richard Goldstein, Carina Farah Mugal.

Les rapporteurs étaient Julien Dutheil, Richard Goldstein, Carina Farah Mugal.


  • Résumé

    L'évolution moléculaire vise à caractériser les mécanismes à l'œuvre dans l'évolution des séquences, régie par un processus stochastique dont les principaux composants sont la mutation, la sélection et la dérive génétique. À long terme, ce processus stochastique se traduit par une histoire d'événements de substitutions le long des arbres d'espèces, induisant des motifs complexes de divergence moléculaire entre les espèces. En analysant ces divergences, les modèles de codons phylogénétiques visent à capturer les paramètres intrinsèques de l'évolution. Dans ce contexte, cette thèse s'est concentrée sur les modèles à codons phylogénétiques et sur la modélisation de l'interaction entre la mutation, la sélection et la dérive génétique dans les séquences d'ADN codant pour des protéines. Parce que la composition de ces séquences ne reflète pas le processus de mutation sous-jacent, mais son filtrage par sélection au niveau des acides aminés, une modélisation minutieuse est nécessaire pour démêler la mutation et la sélection. Ainsi, j'ai développé un modèle d'inférence phylogénétique dans lequel différents taux d'évolution donnent une représentation précise de la manière dont la mutation et la sélection s'opposent à l’équilibre. Deuxièmement, l'équilibre entre mutation et sélection est arbitré par la dérive génétique, qui est médiée par la taille efficace de la population, et ses changements le long d'une phylogénie peuvent être déduits des motifs de substitutions le long des lignées. J'ai ainsi développé un deuxième modèle d'inférence, reconstituant à la fois le paysage de fitness en chaque site, les tendances à long terme de taille efficace de population et les changements de taux de mutation le long de la phylogénie. Ce cadre bayésien a été testé sur des données simulées puis appliqué à des données empiriques. Les estimations de la variation de taille efficace de population correspondent à la direction attendue de la corrélation avec les traits d’histoire de vie ou les variables écologiques, bien que l'ampleur de la variation de la taille efficace de population estimée soit étroite. Afin de comprendre cette variation étroite de la taille efficace de population estimée, j'ai finalement développé un modèle théorique décrivant comment les changements à la fois de taille efficace de population ou du niveau d'expression ou la protéine se traduisent par un changement du taux de substitution, sous l'hypothèse que les protéines sont sous sélection directionnelle pour maximiser leur stabilité conformationnelle. Cette réponse est déterminée en fonction des paramètres moléculaires de la biophysique des protéines, et implique une faible réponse du taux de substitution aux changements de niveau d'expression ou de taille efficace de population dans ce contexte. Ce travail démontre que les hypothèses faites sur la structure du paysage de fitness ont une importance critique sur la sensibilité des changements vitesse d'évolution à des changements de variables écologiques ou moléculaires. Réciproquement, les observations empiriques des motifs de substitutions en réponse à des changements de variables moléculaires ou écologiques nous informent sur la structure sous-jacente du paysage de fitness. En se basant sur l'équilibre mutation-sélection et en intégrant explicitement la taille efficace de population, ce travail présente aussi un cadre conceptuel permettant de relier phylogénie et génétique des populations, dont certaines pistes d'unifications sont envisagées

  • Titre traduit

    Modelling the articulation of selective and neutral mechanisms in the evolution of protein-coding DNA sequences


  • Résumé

    Molecular evolution aims to characterize the mechanisms at work in the evolution of sequences, governed by a stochastic process whose main components are mutation, selection and genetic drift. In the long term, this stochastic process results in a history of substitution events along species trees, inducing complex patterns of molecular divergence between species. By analysing them, phylogenetic codon models aim at capturing the intrinsic parameters of evolution. In this context, this thesis has been focused on phylogenetic codon models, and on modelling the interplay between mutation, selection and drift shaping protein-coding DNA sequences. Because the composition of protein-coding DNA sequences does not reflect the underlying mutational process, but its filtering by selection at the level of amino acids, a careful modelling is necessary to tease apart mutation and selection. Therefore, I first developed a phylogenetic codon model of inference in which different rates of evolution give an accurate representation of how mutation and selection oppose each other at equilibrium. Between the opposing forces of mutation and selection, the balance is arbitrated by genetic drift, which in turn is modulated by effective population size. As a consequence, variation of effective population size along of a phylogeny can theoretically be inferred from the trails of substitutions along the lineages. I thus developed a second model of inference, reconstructing altogether site-specific fitness landscape, long-term trends in effective population size and in the changes in the mutation rate along the phylogeny. This Bayesian framework was tested against simulated data and then applied to empirical data. Estimates of the variation of effective population size corresponds to the expected direction of correlation with life-history traits or ecological variables. However, the magnitude of inferred variation is narrower than expected based on independent estimates. In order to understand this narrow variation in the estimated effective population size, I finally developed a theoretical model describing how changes in both effective population size or expression level of protein translate into a change in substitution rate. This response of the change in substitution rate is obtained under the assumption that proteins are under directional selection to maximize their conformational stability, and related the molecular parameters of protein biophysics. Results of this work imply a weak response of the substitution rate to changes in expression level or effective population size, which are interchangeable. This thesis demonstrates that the assumptions made on the structure of the fitness landscape have a critical importance on the sensitivity of changes in substitution rates to changes in ecological or molecular variables. Conversely, empirical observations of the patterns of substitutions in response to changes in molecular or ecological variables inform us about the underlying structure of the fitness landscape. Being based on the mutation-selection balance and by explicitly integrating effective population size, this work also presents a conceptual framework allowing to relate phylogenetics and population genetics, of which certain unification paths are envisaged


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.