Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit

par Vincent Guillemot

Thèse de doctorat en Physique

Sous la direction de Gilles Fleury.


  • Résumé

    L'objectif de la thèse est de réaliser l'intégration de l'information contenue dans des Réseaux de Régulation Génétiques (RRGs) dans un processus de classification supervisée de données de puces à ADN. Nous proposons une nouvelle méthode, graph Constrained Discriminant Analysis (gCDA), basée sur l'analyse discriminante de Fisher. Les méthodes de la littérature se proposent d'implémenter la contrainte suivante : les gènes qui sont voisins dans le RRG doivent avoir des poids proches, voire identiques, dans la fonction de classification. À contrepoint de ces méthodes, gCDA est basée sur l'estimation régularisée des matrices de variance covariance qui sont utilisées dans l'analyse discriminante de Fisher. Les estimateurs utilisés dans gCDA prennent en compte l'information contenue dans les RRGs disponibles a priori grâce aux propriétés des modèles graphiques gaussiens. GCDA est comparée aux méthodes de la littérature sur des données simulées, pour lesquelles le graphe sous-jacent est parfaitement connu. Dans le cas de données réelles, le graphe sous-jacent n'étant pas connu, nous nous sommes également intéressés à des méthodes permettant d'inférer des RRGs à partir de données transcriptomiques. Enfin, des résultats sont obtenus sur trois jeux de données réelles. Les RRGs ont été inférés soit sur des jeux de données de même nature mais indépendants (c'est-à-dire concernant des individus qui ne sont pas utilisés pour en classification), soit sur une partie indépendante du jeu de données étudié. Nous montrons une amélioration notable des performances de classification sur ces jeux de données lorsque gCDA est utilisée par rapport à l'utilisation des méthodes de la littérature.

  • Titre traduit

    Integration of a priori information into the supervised clustering of microarray datasets


  • Résumé

    Machine learning methods have been applied to microarray datasets since very recently. Their use aims at extracting differentially expressed genes between different classes and at building a classification function able to predict the class of a new individual. Ln addition to microarray data, one can have information on the interactions between the variables (genes). This information is gathered into Gene Regulation Networks (GRN). The goal of the thesis was to integrate one or several GRNs into a binary supervised classification task of microarray data. We propose a new method, graph Constrained Discriminant Analysis (gCDA), based on Fisher's Discriminant Analysis. The methods from the literature propose to implement the following constraint: genes connected in the GRN should have similar weights in the classification function. Ln counterpoint to these methods, gCDA is based on new estimator of covariance matrices able to take into account the information in the GRNs at hand. GCDA is compared to the existing methods with simulated datasets, for which we know exactly the interactions between variables. For real datasets however, the underlying graph is not known. We consequently have also turned our work towards graph inference methods. Finally, we analyzed three real datasets. The GRNs were inferred either on an independent part of the dataset or on another dataset of the same nature. We show that gCDA performs better than the other methods.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (125 p.)
  • Annexes : Bibliogr. p. 119-125

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2010)316
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.