Evolution of multiple alignments : Towards efficient data exploitation and knowledge extraction in the post-genomique era

par Julie Maaloum

Thèse de doctorat en Bioinformatique

Sous la direction de Olivier Poch et de Patrice Koehl.

Soutenue en 2006

à Strasbourg 1 .

  • Titre traduit

    De l' évolution de l'alignement multiple : vers une exploitation efficace des données et une extraction des connaissances à l'ère post-génomique


  • Résumé

    Grâce à la génomique et les technologies protéomiques, la bioinformatique est traversée par une véritable révolution ou l'approche réductioniste traditionnelle est remplacée par de nouvelles stratégies systémiques. Par conséquent, de nouveaux systèmes intégrés sont développés pour la gestion des données hétérogènes, la fouille de l’information et la mise en évidence des connaissances. Dans ce contexte, les alignements multiples de séquences fournissent un environnement idéal pour l'intégration fiable des informations liées à un génome ou un protéome. Durant cette thèse, trois développements ont été réalisés: (i) un banc d’essai pour l’évaluation objective des algorithmes d’alignement, (ii) une ontologie (MAO) des alignements de séquences et de structures, (iii) un système de gestion d’information (MACSIMS) qui exploite l’alignement multiple et l’organisation fournie par l’ontologie. MACSIMS a été utilisé dans plusieurs projets, incluant l'annotation de génomes complets, la caractérisation de cibles pour la protéomique structurale et la prédiction des effets fonctionnels de mutations impliquées dans des pathologies humaines. MACSIMS peut aussi être utilisé pour la mise à l'essai systématique d'hypothèses de recherche et cette approche a été validée dans le cadre d’une étude portant sur la prédiction des sites fonctionnels dans les protéines sur la base de différentes caractéristiques de séquence/structure. Les applications potentielles de MACSIMS touchent aussi bien aux aspects d’annotation automatique de protéines hypothétiques, qu’à des aspects plus structuraux tel que l’étude de motifs ou résidus spécifiques d’un repliement. A l’avenir, on peut penser que ces développements auront des implications dans les domaines aussi divers que le génie des protéines, la modélisation de voies biologiques, ou les stratégies de développement de médicaments.


  • Résumé

    Genomics and proteomics technologies, together with the new systems biology strategies have led to a paradigm shift in bioinformatics. The traditional reductionist approach has been replaced by a more global, integrated view. In this context, new information management systems are now being introduced to collect, store and curate heterogeneous information in ways that will allow its efficient retrieval and exploitation. Multiple sequence alignments provide an ideal environment for the reliable integration of information from a complete genome to a gene and its related products. In the multiple alignment, patterns of conservation and divergence can be used to identify evolutionarily conserved features and important genetic events. In this thesis, three developments are described: (i) a new benchmark for the objective evaluation of multiple alignment algorithms, (ii) a multiple alignment ontology (MAO) for nucleic acid or protein sequences and structures, (iii) an information management system (MACSIMS) that exploits the multiple alignment and the organisation provided by the ontology. MACSIMS has been used in a variety of projects, including complete genome annotation, target characterisation for structural proteomics and the prediction of structural and functional effects of mutations involved in human pathologies. MACSIMS can also be used for the systematic testing of research hypotheses and the rationale is demonstrated by a study of the effectiveness of various sequence/structure characteristics for the prediction of functional sites in proteins. Other potential applications include such fields as the annotation of the numerous hypothetical proteins produced by the genome sequencing projects or the definition of characteristic motifs for specific protein folds. Hopefully, this will also have more wide-reaching consequences in areas such as protein engineering, metabolic modelling, or the development of new drug development strategies.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (Pagination multiple)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 123-135

Où se trouve cette thèse ?

  • Bibliothèque : Université de Strasbourg. Service commun de la documentation. Bibliothèque Danièle Huet-Weiller.
  • Disponible pour le PEB
  • Cote : Th.Strbg.Sc.2006;5240
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.