Analyse évolutive des familles de domaines protéiques

par Catherine Bru

Thèse de doctorat en Bio-informatique

Sous la direction de Daniel Kahn.

Soutenue en 2005

à Toulouse 3 .


  • Résumé

    L'inférence fonctionnelle est un problème central dans le contexte actuel de séquençage et d'annotation massifs de génomes entiers. La traditionnelle méthode d'annotation fonctionnelle par recherche d'homologie n'est pas toujours suffisante. En conséquence, plusieurs méthodologies ont été développées pour mettre en évidence des corrélations fonctionnelles entre gènes. Parmi celles-ci figure la méthode des profils phylogénétiques. Cependant, l'inconvénient de cette méthode est qu'elle ne tient pas compte de la structure arborescente de la taxonomie qui relie les espèces étudiées entre elles. Afin de les enrichir, nous avons cherché à prédire sur l'arbre de la taxonomie des espèces, un scénario évolutif pour chaque profil phylogénétique. Trois méthodes différentes ont été développées et appliquées aux familles de domaines protéiques issues de la base de données ProDom-CG. La première est basée sur l'hypothèse que si le phénomène majeur de transmission d'un domaine entre espèces est l'héritage vertical, alors on peut identifier un sous-arbre de la taxonomie contenant une majorité d'espèces ayant le domaine (et une minorité d'espèces n'ayant pas le domaine). L'objectif est alors d'identifier pour chaque famille de domaines, la bi-partition de l'arbre qui permettra de dégager un tel sous-arbre. Cette méthode permet de proposer pour chaque famille de domaines, une origine et des éventuels transferts horizontaux. Les deux autres méthodes, plus fines, permettent de proposer pour chaque famille de domaines le scénario évolutif le plus probable précisant l'état de présence ou d'absence du domaine à chaque nœud de l'arbre de la taxonomie. L'une utilise un algorithme de programmation dynamique, l'autre s'appuie sur la méthodologie des réseaux Bayésiens. Les paramètres de ces deux modèles sont les probabilités conditionnelles de transmission du domaine d'un nœud parental vers les nœuds fils dans l'arbre de la taxonomie. Ces paramètres sont estimés soit par hypothèse de Viterbi, soit par l'algorithme EM (expectation maximisation) à partir d'un ensemble de familles d'apprentissage. La méthode la plus raffinée et performante est celle utilisant les réseaux Bayésiens. Elle a permis notamment l'estimation de paramètres spécifiques pour les trois principales branches de la taxonomie des espèces (Eubactéries, Archéobactéries, Eucaryotes). Cette méthode a été retenue pour proposer en ligne un scénario évolutif pour chaque famille de domaines de la base de données ProDom-CG (Bru et al. , 2005, Nucleic Acids Research vol. 33:D212-D215). . .

  • Titre traduit

    Evolutionary analysis of protein domain families


  • Résumé

    Functional inference is a major issue in the current context of whole genome sequencing and annotation. The traditional method of functional annotation using homology is not always sufficient. Therefore, several methodologies have been developed to identify functional correlations between genes such as “phylogenetic profiles”. However, this method does not take into account the tree structure that connects each species involved. In order to enrich phylogenetic profiles, we tried to predict for each one an evolutionary scenario taking into consideration the species taxonomy tree. Three different methods were developed and applied to the protein domain families of the ProDom-CG database. The first one is based on the assumption that if vertical inheritance is the major phenomenon of transmission of a domain between species, then one can identify a sub-tree containing a majority of species having the domain (and a minority lacking it). Then the goal is to find, for each domain family, the bipartition of the tree identifying such a sub-tree. This method suggests for each domain family, an origin and possible horizontal transfer events. The two other methods which are more refined, suggest the most probable evolutionary scenario for every domain family. The domain presence or absence is specified for every node of the taxonomy tree. One method uses a dynamic programming algorithm while the other is based on Bayesian networks. The parameters of these two models are conditional probabilities of domain transmission from a parental node to its children in the taxonomy tree. These parameters are estimated either by Viterbi hypothesis or by EM (expectation maximization) using a training set of protein domain families. . .

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (132 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 125-132

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2005TOU30061

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2005TOU30061
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.