Thèse soutenue

Modèles d'intégration de la connaissance pour la fouille des données d'expression des gènes

FR  |  
EN
Auteur / Autrice : Ricardo Martinez
Direction : Martine Collard-Poulard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2007
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)

Mots clés

FR

Résumé

FR  |  
EN

Dans cette thèse, nous présentons une structure qui comprend tous les méthodes développées pour interpréter des résultats d'expression des gènes en incorporant des annotations sur les gènes. Puis, nous abordons la question de la découverte de « clusters » (algorithmes non-supervisées) parmi des profils d'expression de gène, et nous proposons deux approches spécifiques à ce sujet : CGGA (Co-expressed Gene Groups Analysis) and GENMINER (Gene-integrated analysis using association rules mining). CGGA est une méthode de l'approche a priori qu'intègre l'information issue des données des biopuces, i. E. Les profils d'expression des gènes, avec les annotations fonctionnelles des gènes issues des différentes sources d'information génomique tel que Gène Ontologie. GENMINER est une méthode de co-clustering basé dans l'extraction de règles d'association qu'intègre l'information des profils d'expression des gènes (discrétisées) a partir de différentes sources d'information biologique sur les gènes (en incluant la totalité de l'information minimale contenue dans la biopuce). A la fin nous ciblons la question de la découverte de classes par des méthodes supervisés, a ce sujet nous proposons GENETREE (GENE-integrated analysis for biological sample prediction using decision TREEs). GENETREE est une méthode de co-clustering basé dans les arbres de décision qui permet d'intégrer les profils d'expression des gènes et l'information contenue dans les sources d'information biologique relative aux voies métaboliques (en tenant en compte la variable temporelle du processus biologique. Les expérimentations menées avec les trois méthodes ont permis de mettre en évidence les principaux groupes de gènes fonctionnellement riches et co-exprimés dans les différents jeux de données d’expression des gènes qui ont été analysées.