Thèse soutenue

Détection phylogénétique de sites protéiques associés à un phénotype, à l’échelle génomique

FR  |  
EN
Auteur / Autrice : Louis Duchemin
Direction : Bastien BoussauPhilippe Veber
Type : Thèse de doctorat
Discipline(s) : Génomique évolutive
Date : Soutenance le 01/03/2023
Etablissement(s) : Lyon 1
Ecole(s) doctorale(s) : École doctorale Evolution Ecosystèmes Microbiologie Modélisation
Partenaire(s) de recherche : Laboratoire : Laboratoire de Biométrie et Biologie Evolutive
Jury : Président / Présidente : Céline Brochier-Armanet
Examinateurs / Examinatrices : Bastien Boussau, Philippe Veber, Nicolas Galtier, Maria Anisimova, Sophie Abby
Rapporteurs / Rapporteuses : Nicolas Galtier, Maria Anisimova

Résumé

FR  |  
EN

Les espèces actuelles, et donc leurs génomes, partagent une histoire commune de par leur descendance d'une même espèce ancestrale, qui s'est séparée au fil de l'accumulation de divergences entre populations. En associant les séquences génomiques issus d'une même séquence ancestrale, et en examinant leur divergence, il est possible d'interpréter les traces laissées par leur histoire évolutive pour la reconstruire en partie. Parmi les événements de modification du génome, je m'intéresse au cas des substitutions au sein des gènes codants pour des protéines, dont la structure et la fonction peut en être modifiée et donc avoir un effet adaptatif. En confrontant le signal porté par ces substitutions à l'histoire d'un trait phénotypique, on peut tenter de déceler une corrélation entre l'histoire évolutive d'un site codant et celle du phénotype. L'identification de telles corrélations pourrait être le signal qu'une position génotypique est impliquée dans l'émergence ou le maintien du phénotype considéré, et plus largement témoigner de son implication dans l'adaptation d'une espèce à un environnement donné. De nombreux modèles du processus de substitutions basés sur ce genre d'approches comparatives existent déjà, mais il est toutefois difficile de les appliquer à l'échelle génomique pour effectuer une détection systématique des sites associés à un phénotype, du fait de la quantité de données que cela représente et de la limitation de la puissance de calcul disponible. Dans cette thèse, je cherche à proposer une solution pour permettre ce genre d'analyse à large échelle à moindre coût en temps, tout en préservant la qualité des prédictions obtenues. Après des premières tentatives infructueuses d'adapter des modèles linéaires utilisés en GWAS à l'échelle des populations pour étudier les associations génotype-phénotype, pour les appliquer à l'échelle inter-espèces, j'ai identifié une approche qui semble constituer une solution satisfaisante. Celle-ci se base sur un modèle d'évolution des séquences protéiques publié précédemment, mais dont le potentiel n'avait pas été bien reconnu.J'ai montré, sur la base de simulations, que l'implémentation que nous avons faite de ce modèle permet de déceler des changements dans la dynamique de substitution en association avec des variations du phénotype aussi bien que plusieurs modèles plus complexes et plus coûteux en calculs. Bien qu'elle ne soit peut-être pas plus rapide que d'autres implémentations de modèles phylogénétiques, ce qu'il faudrait évaluer, elle apparaît comme la plus rapide des méthodes dites "à profils" qui permettent d'estimer une direction à la sélection.Une partie de cette thèse est consacrée à détailler cette méthode, que nous appelons Pelican, son modèle, son implémentation et quelques unes de ses limites.Une stratégie alternative pour l'estimation des paramètres du modèle, en déportant les calculs sur GPU et exploiter leur capacité de parallélisme, est aussi explorée pour tenter d'améliorer la vitesse des analyses. J'ai également proposé une extension du modèle basée sur des phénotypes continus, et non plus catégoriels. Celle-ci demande encore davantage de travail pour évaluer sa validité. Enfin, j'ai cherché à identifier une manière de prédire les gènes associés à un phénotype à partir des prédictions individuelles réalisées à chacune des positions de leur séquence.Afin de valider notre approche sur des données empiriques, je l'ai appliquée à des alignements de gènes de mammifère pour identifier des sites et des gènes associés à divers phénotypes discrets. Les prédictions obtenues, comparées aux annotations et à la littérature existantes, suggèrent que la méthode est capable d'identifier des sites associés à un trait de manière relativement fiable. Le résultat de ce travail est l'implémentation logicielle de Pelican, qui bien qu'elle soit encore à un stade précoce, propose une solution pour détecter des associations genotype-phénotype inter-espèces à l'échelle génomique.