Intégration, interrogation et analyse de données de génomique comparative

par Frédéric Lemoine

Thèse de doctorat en Informatique

Sous la direction de Christine Froidevaux et de Bernard Labedan.

Soutenue en 2008

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Nos travaux s’inscrivent dans le projet ANR « Microbiogenomics ». Ce projet a pour but la construction d'un entrepôt de données de génomes bactériens. Cet entrepôt doit rassembler de nombreuses données actuellement dispersées, dans le but d'améliorer l'annotation des génomes bactériens. Au sein de ce projet, nos travaux comportent plusieurs volets. La première problématique porte principalement sur l'extraction et le traitement de données biologiques. Nous nous sommes intéressés plus particulièrement à la conservation de l’ordre des gènes des génomes procaryotes au cours de l’évolution. Pour cela, nous avons mis au point une chaîne de traitements visant à détecter les régions dont l’ordre est conservé. Nous avons ensuite étudié l’évolution relative des protéines codées par les gènes dont l’ordre est conservé par rapport aux autres protéines. Ces données ont été mises à disposition à travers l’outil de visualisation SynteView (http://www. Synteview. U-psud. Fr). Pour élargir l'analyse de ces données de conservation de l'ordre des gènes, il est nécessaire de les croiser avec d'autres types de données comme par exemple de voie métabolique. Ces données, souvent dispersées et hétérogènes sont difficiles à interroger. C’est pourquoi dans un second temps, nous nous sommes concentrés sur la conception et l'interrogation de l'entrepôt. Nous avons conçu une architecture et des algorithmes dans le but d’interroger l’entrepôt, en gardant les points de vue donnés par les sources. Ces algorithmes ont été implémentés dans GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), un module de requête prototype adapté à l'interrogation d'un entrepôt de données génomiques.

  • Titre traduit

    Integration, querying, and analysis of comparative genomics data


  • Résumé

    Our work takes place within the « Microbiogenomics » project. Microbiogenomics aims at building a genomic prokaryotic data warehouse. This data warehouse gathers numerous data currently dispersed, in order to improve functional annotation of bacterial genomes. Within this project, our work contains several facets. The first one focuses mainly on the analyses of biological data. We are particularly interested in the conservation of gene order during the evolution of prokaryotic genomes. To do so, we designed a computational pipeline aiming at detecting the areas whose gene order is conserved. We then studied the relative evolution of the proteins coded by genes that are located in conserved areas, in comparison with the other proteins. This data were made available through the SynteView synteny visualization tool (http://www. Synteview. U-psud. Fr). Moreover, to broaden the analysis of these data, we need to cross them with other kinds of data, such as pathway data. These data, often dispersed and heterogeneous, are difficult to query. That is why, in a second step, we were interested in querying the Microbiogenomics data warehouse. We designed an architecture and some algorithms to query the data warehouse, while keeping the different points of view given by the sources. These algorithms were implemented in GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), a prototype querying module adapted to a genomic data warehouse.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (231 p.)
  • Annexes : Bibliogr. p. 215-227

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2008)180
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.