Automatic annotation of multigene families, the case of peroxidases

par Nizar Fawal

Thèse de doctorat en Développement des plantes

Sous la direction de Christophe Dunand et de Catherine Mathé.

Soutenue en 2013

à Toulouse 3 .


  • Résumé

    Une famille de gènes est un groupe de gènes homologues, partageant un ancêtre commun, et ayant des similarités au niveau de leurs séquences et de leurs fonctions. Mon équipe d'accueil, Evolution et Expression des Peroxydases, s'intéresse particulièrement à l'annotation de la superfamille des peroxydases. Les peroxydases sont des enzymes universelles du monde vivant qui catalysent des réactions d'oxydo-réduction impliquant la réduction d'un peroxyde d'hydrogène et l'oxydation d'un substrat, variable d'une classe de peroxydase à une autre. Avec la baisse du coût et du temps nécessaire au séquençage de nouveaux génomes, maintenir une annotation manuelle experte est devenu illusoire. Aussi, pour gérer ce flux croissant de données d'une manière fiable, la première étape était de mettre à jour notre base de données des peroxydases, la PeroxiBase. Dans cette optique, plusieurs outils et pipelines ont été mis en place pour faciliter et accélérer la procédure d'annotation des peroxydases tout en maintenant une haute qualité d'annotations. Tout d'abord, deux pipelines automatiques, " proteome_filter " et " EST_filter ", pour l'annotation des familles multigéniques ont été développés. Ils se basent sur une recherche par homologie à l'aide d'un BLAST dans le but d'identifier les séquences appartenant à la superfamille des peroxydases à partir du protéome ou des données d'ESTs. De plus, GECA, un logiciel pour comparer l'organisation en exon/intron et ainsi détecter les variations de structures de gènes a été développé. Par ailleurs, cette information sur les structures de gènes peut être utilisée aussi pour valider l'annotation des membres des familles multigéniques. Ces outils ont été testés dans le cadre des ligninases. Le choix de cette famille est justifié par l'annotation massive des génomes des champignons en raison de l'intérêt industriel accru pour les ligninases. Ces enzymes appartiennent à la famille des peroxydases de classe II qui se trouve essentiellement chez les champignons où ils sont responsables de la dégradation de la lignine (polymère présent dans la paroi des plantes terrestres). Bénéficiant d'une base de données experte sur les peroxydases, j'ai entrepris des études sur ces enzymes pour les classer et analyser leur évolution. En parallèle, je me suis impliqué dans des projets annexes comme la construction d'un pipeline pour avoir une analyse phylogénétique complète et une étude de l'évolution de huit familles de gènes chez l'Eucalyptus.

  • Titre traduit

    Automatic annotation of multigene families, the case of peroxidases


  • Résumé

    Gene families are groups of homologous genes with a common ancestor that are likely to have highly similar sequences and functions. In our team, we are mainly interested in one of these families, the peroxidase superfamily. Peroxidases are universal enzymes present in all organisms where they typically catalyze the reduction of peroxides, such as hydrogen peroxide and the oxidation of a variety of organic and inorganic compounds. However, with the continually reducing cost and time of genome sequencing, expert manual annotation became a cumbersome task. Therefore, in order to handle the flood of data in an expert manner, the first step was to update the peroxidases database, the PeroxiBase. For this first aim, several tools and pipelines were set in place to facilitate and accelerate the annotation process of peroxidases all while maintaining a high quality of annotations. First of all, two new automatic pipelines, " proteome_filter " et " EST_filter ", for the annotation of multigene families were developed. They are based on a BLAST homology search in order to detect sequences that may be related to the families in question. Plus, a new tool named GECA, was developed for comparing exon/intron organization and therefore to help detecting gene structure variations. Furthermore, this gene structure information can be used as means to validate the annotation of multigene families. The new pipelines and GECA were implemented and tested with the family of ligninases. The choice for this family is supported by the massive annotation of fungi genomes due to the increased industrial interest in ligninases. These enzymes belong to the class II peroxidase, found essentially in fungi and responsible of degrading lignin (a high molecular compound found in the cell wall of land plants). Having a specialized databank on peroxidases, I started classifying, analyzing and studying the evolution of these ligninases. Finally, in addition to my work I was implicated in several side projects, such as designing a semi-automatic annotation workflows, constructing a pipeline for a complete phylogenic study and finally, studying of the evolution of eight gene families in Eucalyptus.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (155 p.)
  • Annexes : Bibliogr. p. 131-138

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2013 TOU3 0301
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.