Analyse canonique régularisée pour des données fortement multidimensionnelles

par Ignacio Gonzalez

Thèse de doctorat en Mathématiques. Statistiques

Sous la direction de Alain Baccini et de José Leon.

Soutenue en 2007

à Toulouse 3 .


  • Résumé

    Motivé par la mise en évidence des relations entre l'expression de gènes et d'autres variables biologiques, notre travail consiste à présenter et développer une méthodologie répondant à ce problème. Parmi les méthodes statistiques abordant ce sujet, l'Analyse Canonique (AC) semblait bien appropriée, mais la haute dimensionalité est actuellement l'un des obstacles majeurs pour les techniques statistiques d'analyse de données issues de biopuces. Naturellement l'axe de ce travail a été la recherche de solutions tenant compte de cet aspect crucial dans la mise en oeuvre de l'AC. Parmi les approches envisagées pour contourner ce problème, nous nous sommes intéressés à des méthodes de régularisation. Ainsi, la méthode développée ici, appelée Analyse Canonique Régularisée (ACR), est basée sur le principe de régularisation ridge introduit initialement en régression linéaire multiple. L'ACR nécessitant le choix de deux paramètres de réglage pour sa mise en oeuvre, nous avons proposé la méthode de validation croisée par sous-groupes pour traiter ce problème. Nous avons présenté en détail des applications de l'ACR à des données fortement multidimensionnelles provenant d'études génomiques ainsi qu'à des données provenant d'autres domaines. Sur ce point on s'est intéressé à une visualisation des données aidant à l'interprétation des résultats obtenus. À cet effet, nous avons proposé un certaine nombre de méthodes graphiques : représentations des variables (graphiques des corrélations), représentations des individus ainsi que des représentations alternatives comme les graphiques de réseaux et les cartes de double classification (heatmaps). Pour la mise en oeuvre de l'AC, nous avons développé le package CCA (disponible en ligne sur le site cran. R-project. Org). Ce package permet le traitement de données avec plus de variables que d'unités expérimentales par l'ACR, la manipulation des valeurs manquantes et la réalisation des graphiques aidant à l'interprétation des résultats. . .

  • Titre traduit

    Regularized canonical correlation analysis for high multidimensional data


  • Pas de résumé disponible.


  • Résumé

    Motivated by the study of relationships between gene expressions and other biological variables, our work consists in presenting and developing a methodology answering this problem. Among the statistical methods treating this subject, Canonical Analysis (CA) seemed well adapted, but the high dimension is at present one of the major obstacles for the statistical techniques of analysis data coming from microarrays. Typically the axis of this work was the research of solutions taking into account this crucial aspect in the implementation of the CA. Among the approaches considered to handle this problem, we were interested in the methods of regularization. The method developed here, called Regularised Canonical Analysis (RCA), is based on the principle of ridge regularization initially introduced in multiple linear regression. RCA needing the choice of two parameters of regulation for its implementation, we proposed the method of M-fold cross-validation to handle this problem. We presented in detail RCA applications to high multidimensional data coming from genomic studies as well as to data coming from other domains. Among other we were interested in a visualization of the data in order to facilitate the interpretation of the results. For that purpose, we proposed some graphical methods: representations of variables (correlations graphs), representations of individuals as well as alternative representations as networks and heatmaps. . .

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (124 p.)
  • Annexes : Bibliogr. p. 117-124

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2007TOU30196
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.