Thèse de doctorat en Bioinformatique
Sous la direction de Odile Lecompte et de Olivier Poch.
Soutenue en 2009
à Strasbourg .
Les travaux présentés dans cette thèse s’inscrivent dans le cadre de la génomique à haut-débit, et tout particulièrement l’analyse de séquences d’Expressed Sequence Tags (EST). Les efforts mis en oeuvre ont abouti à la réalisation d’une suite logicielle permettant de gérer une cascade de traitements modulaires. Cette cascade inclut une première phase de prétraitements et d’assemblage visant à améliorer la qualité initiale des EST, qui sont ensuite traduits en séquences protéiques grâce à une combinaison d’approches. La dernière phase consiste en une annotation intégrative des protéines dont l’originalité repose sur l’exploitation du contexte évolutif grâce à l’alignement multiple. La protéine est ensuite replacée au sein de ses réseaux fonctionnels. Les résultats générés sont accessibles via plusieurs interfaces originales de recherche et de visualisation conçues au cours de cette thèse. Les outils développés ont été utilisés pour analyser différentes collections d’EST et de protéines procaryotes et eucaryotes. Ils ont notamment permis l’exploitation de 100 000 séquences de transcrits d’Alvinella pompejana, un Annélide polychète thermotolérant, endémique des sources hydrothermales. Les études comparatives réalisées ont mis en évidence l’importance des gènes impliqués dans l’adaptation au stress oxydatif et à l’hypoxie chez Alvinella ainsi qu’un enrichissement des protéines en acides aminés chargés positivement qui pourrait participer à la thermotolérance de ce ver. Enfin, nos travaux ont révélé l’origine ancestrale de nombreux gènes jusqu’à présent considérés comme spécifiques des Deutérostomes, modifiant ainsi notre vision de l’évolution des Métazoaires.
Development of a pipeline for automated analysis and integrated annotation of transcripts and proteins : application to cDNA libraries of the polychaete annelid Alvinella pompejana
This thesis work concerns high-throughput genomics, and more particularly Expressed Sequence Tag (EST) analysis. The project has led to the development of an EST analysis pipeline capable of managing a suite of analysis modules. The first phase of this pipeline includes pre-processing and assembly of the ESTs to improve their initial quality, and their subsequent translation into protein sequences using a combination of similarity and ab initio approaches. The last phase of the pipeline consists of an original integrative annotation of the proteins, based on their evolutionary context thanks to multiple alignments. The proteins are then mapped onto their functional networks. The generated results can be accessed by several dedicated Web querying and visualisation interfaces designed during this thesis. These developments were used in several studies of prokaryotic and eukaryotic cDNA libraries and proteins. Notably, they enabled the exploitation of 100,000 Alvinella pompejana sequences, a thermotolerant polychaete Annelid, endemic to hydrothermal vents. These comparative studies highlighted crucial genes implicated in Alvinella oxidative stress and hypoxia adaptation, as well as an enrichment in positively charged amino acids of proteins that could be involved in this worm’s thermotolerance. Finally, our work revealed the ancestral origin of several genes previously considered to be Deuterostome specific, thus modifying our vision of Metazoan evolution.