Knowledge integration models for mining gene expression data

par Ricardo Martinez

Thèse de doctorat en Informatique

Sous la direction de Martine Collard-Poulard.

  • Titre traduit

    Modèles d'intégration de la connaissance pour la fouille des données d'expression des gènes


  • Pas de résumé disponible.


  • Résumé

    Dans cette thèse, nous présentons une structure qui comprend tous les méthodes développées pour interpréter des résultats d'expression des gènes en incorporant des annotations sur les gènes. Puis, nous abordons la question de la découverte de « clusters » (algorithmes non-supervisées) parmi des profils d'expression de gène, et nous proposons deux approches spécifiques à ce sujet : CGGA (Co-expressed Gene Groups Analysis) and GENMINER (Gene-integrated analysis using association rules mining). CGGA est une méthode de l'approche a priori qu'intègre l'information issue des données des biopuces, i. E. Les profils d'expression des gènes, avec les annotations fonctionnelles des gènes issues des différentes sources d'information génomique tel que Gène Ontologie. GENMINER est une méthode de co-clustering basé dans l'extraction de règles d'association qu'intègre l'information des profils d'expression des gènes (discrétisées) a partir de différentes sources d'information biologique sur les gènes (en incluant la totalité de l'information minimale contenue dans la biopuce). A la fin nous ciblons la question de la découverte de classes par des méthodes supervisés, a ce sujet nous proposons GENETREE (GENE-integrated analysis for biological sample prediction using decision TREEs). GENETREE est une méthode de co-clustering basé dans les arbres de décision qui permet d'intégrer les profils d'expression des gènes et l'information contenue dans les sources d'information biologique relative aux voies métaboliques (en tenant en compte la variable temporelle du processus biologique. Les expérimentations menées avec les trois méthodes ont permis de mettre en évidence les principaux groupes de gènes fonctionnellement riches et co-exprimés dans les différents jeux de données d’expression des gènes qui ont été analysées.


  • Résumé

    In this thesis, we first present an original point of view for the state of the art on methods developed for interpreting gene expression results through corresponding gene annotations. Then, we tackle the non-supervised learning issue of class discovery among gene expression profiles, and we propose two specific approaches on this subject: CGGA (Co-expressed Gene Groups Analysis) and GENMINER (Gene-integrated analysis using association rules mining). CGGA is a knowledge-based approach which automatically integrates gene expression profiles and gene annotations obtained from genome-wide information databases such as Gene Ontology. GENMINER is a co-clustering and bi-clustering approach which automatically integrates at once gene annotations and gene expression profiles to discover intrinsic associations between these two heterogeneous sources of information. Finally, we focus on the supervised learning issue of class prediction, and we propose GENETREE (GENE-integrated analysis for biological sample prediction using decision TREEs), an approach which takes advantage of the well known decision tree algorithm C5. 0 and adapts its entropy splitting principle with several ontology-based criteria.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (vii-306 p.)
  • Annexes : Bibliogr. p. 287-304. Glossaire. Résumé en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 07NICE4060
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.