L’évolution modulaire des protéines : un point de vue phylogénétique

par Anne-Sophie Sertier

Thèse de doctorat en Bio-informatique

Sous la direction de Vincent Daubin et de Daniel Kahn.

Soutenue le 12-09-2011

à Lyon 1 , dans le cadre de École Doctorale Evolution Ecosystèmes Microbiologie Modélisation , en partenariat avec Laboratoire de Biométrie et Biologie Evolutive (laboratoire) .

Le président du jury était Dominique Mouchiroud.

Le jury était composé de Alain Viari.

Les rapporteurs étaient Pierre Brezellec, Pierre Pontarotti.


  • Résumé

    La diversité du monde vivant repose pour une large part sur la diversité des protéines codées dans les génomes. Comment une telle diversité a-t-elle été générée ? La théorie classique postule que cette diversité résulte à la fois de la divergence de séquence et de la combinatoire des arrangements de protéines en domaines à partir de quelques milliers de domaines anciens, mais elle n’explique pas les nombreuses protéines orphelines.Dans cette thèse, nous avons étudié l’évolution des protéines du point de vue de leur décomposition en domaines en utilisant trois bases de données : HOGENOM (familles de protéines homologues), Pfam (familles de domaines expertisées) et ProDom (familles de modules protéiques construites automatiquement). Chaque famille d’HOGENOM a ainsi été décomposée en domaines de Pfam ou modules de ProDom. Nous avons modélisé l’évolution de ces familles par un réseau Bayésien basé sur l’arbre phylogénétique des espèces. Dans le cadre de ce modèle, on peut reconstituer rigoureusement les scénarios d’évolution les plus probables qui reflètent la présence ou l’absence de chaque protéine, domaine ou module dans les espèces ancestrales. La mise en relation de ces scénarios permet d’analyser l’émergence de nouvelles protéines en fonctions de domaines ou modules ancestraux. L’analyse avec Pfam suggère que la majorité de ces événements résulte de réarrangements de domaines anciens, en accord avec la théorie classique. Cependant une part très significative de la diversité des protéines est alors négligée. L’analyse avec ProDom, au contraire, suggère que la majorité des nouvelles protéines ont recruté de nouveaux modules protéiques. Nous discutons les biais de Pfam et de ProDom qui permettent d’expliquer ces points de vue différents. Nous proposons que l’émergence de nouveaux modules protéiques peut résulter d’un turn-over rapide de séquences codantes, et que cette innovation au niveau des modules est essentielle à l’apparition de nombreuses protéines nouvelles tout au long de l’évolution.

  • Titre traduit

    A phylogenetic view of the modular evolution of proteins


  • Résumé

    The diversity of life derives mostly from the variety of proteins coded in genomes. How did evolution produce such a tremendous diversity ? The classical theory postulates that this diversity results both from sequence divergence and from the combinatorial arrangements of a few thousand primary protein domain types. However this does not account for the increasing number of entirely unique proteins as found in most genomes.In this thesis, we study the evolution of proteins from the point of view of their domain decomposition and rely on three databases : HOGENOM (homologous protein families), Pfam (manually curated protein domain families) and ProDom (automatically built protein module families). Each protein family from HOGENOM has thus been decomposed into Pfam domains or ProDom modules. We have modelled the evolution of these families using a Bayesian network based on the phylogenetic species tree. In the framework of this model, we can rigorously reconstitute the most likely evolutionary scenarios reflecting the presence or absence of each protein, domain or module in ancestral species. The comparison of these scenarios allows us to analyse the emergence of new proteins in terms of ancestral domains or modules. Pfam analysis suggests that the majority of protein innovations results from rearrangements of ancient domains, in agreement with the classical paradigm of modular protein evolution. However a very significant part of protein diversity is then neglected. On the other hand ProDom analysis suggests that the majority of new proteins have recruited novel protein modules. We discuss the respective biases of Pfam and ProDom underlying these contrasting views. We propose that the emergence of new protein modules may result from a fast turnover of coding sequences and that this module innovation is essential to the emergence of numerous novel proteins throughout evolution


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.