Datation des duplications de gènes chez les vertébrés et liens avec la diversification en espèces

par Guillaume Louvel

Projet de thèse en Génomique

Sous la direction de Hugues Roest crollius.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Complexité du vivant , en partenariat avec Institut de Biologie de l'École Normale Supérieure (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-09-2016 .


  • Résumé

    Le contenu en gènes des génomes étant organisé en familles, l'arbre phylogénétique des gènes diffère de celui des espèces. Cette incompatibilité résulte de duplications de gènes, perte de gènes, transferts horizontaux ou de tri incomplet des lignées. Les biologistes en évolution se sont intéressés très tôt aux duplications de gènes comme un processus pouvant générer des nouveautés sujettes à l'adaptation (Ohno 1970). Aujourd'hui, grâce à la disponibilité de génomes complets avec annotations géniques, en particulier chez les vertébrés, on peut quantifier l'histoire et la dynamique des duplications de gènes à l'échelle génomique (Blomme 2006). Nous avons rassemblé ces données de duplications à partir de la base de données Ensembl Compara. Nous cherchons à établir la répartition précise des duplications dans le temps et par lignées, dans le but de déterminer les conséquences évolutive de ces événements: apportent-ils des innovations cruciales permettant à certains clades de connaître une radiation adaptative ? Entraînent-ils des incompatibilités à la reproduction, accélérant la spéciation ? Pour répondre à ces questions, nous avons d'abord mis en place une procédure de datation de chaque duplication génique, à parir des taux de substitutions synonymes et des arbres de gènes "réconciliés" (incorporés dans l'arbre des espèces). Nous avons ensuite estimé la qualité des dates obtenues, et leur robustesse face à certains biais méthodologiques comme l'hypothèse d'une horloge moléculaire constante ou l'incertitude dans la topologie des grands arbres de gènes (familles de gènes en tandem, par exemple). Cette première analyse permet d'estimer la confiance à accorder aux méthodes actuelles de datation, ainsi qu'aux données de départ. Une datation correcte permettrait en effet de savoir plus précisément quelles espèces présentent les duplicats, parmi la majorité d'espèces dont les génomes complets ne sont pas forcément disponibles. Cette datation pourrait ensuite être corrélée avec le taux de diversification en espèces. En parallèle, ces mesures de taux de duplication génique pourraient également être corrélées avec des traits phénotypiques, avec des méthodes de phylogénie comparative adéquates.

  • Titre traduit

    Dating gene duplication in vertebrates and links with species diversification


  • Résumé

    The gene content of any genome is organised in families, such that genes do not share the same phylogenetic history as species. This discrepancy originates from gene duplications, deletion, horizontal transfer or incomplete lineage sorting. Evolutionary biologists have long been interested in gene duplication, as it provides the potential for adaptive novelty (Ohno 1970). Today's availability of a growing number of complete genomes with annotated genes, especially in vertebrates, allows the quantification of the genome-wide history and dynamic of gene duplication (Blomme 2006). We compiled such information using the existing gene tree database Ensembl Compara. Obtaining a fine-grained temporal and lineage distribution of duplications could help testing hypotheses about the evolutionary consequences of gene duplication: do they provide key innovations that allow clades to successfully radiate? Do they generate genetic incompatibilities that foster speciation? In order to tackle these questions, we first set up a pipeline to date each individual duplication in absolute time, using measures of synonymous substitution rates and reconciled gene trees (mapped to the species tree). We then assess the relevance of the observed dates, and their susceptibility to methodological pitfalls, for example the applicability of the molecular clock assumption or uncertainty in the topology of large gene trees, as seen for some trees of tandem duplicates. This first analysis helps drawing conclusions on the reliability of current methods and data used to perform molecular absolute datation. A good datation of duplications would help us discriminate which extant species they affect (as only a tiny fraction of species is currently in the databases), and then whether or not they correlate with species diversification. In addition to the correlation of gene duplication with diversification rate, as we currently focus on, our resulting duplication rate estimation could also be correlated with phenotypic traits, using appropriate phylogenetic comparative methods.