Impact de la dépendance dans les procédures de tests multiples en grande dimension

par Chloé Friguet

Thèse de doctorat en Mathématiques appliquées

Sous la direction de David Causer.

Soutenue en 2010

à Rennes, AGROCAMPUS-OUEST .


  • Résumé

    Motivé par des applications dans le domaine de l'analyse de données génomiques, ce travail de thèse porte sur l'étude de l'impact de la dépendance sur les propriétés des procédures de tests multiples en grande dimension. Notre proposition consiste à considérer un modèle d'Analyse en Facteurs pour la structure de dépendance entre les variables. Un algorithme de type EM est présenté pour estimer les paramètres du modèle ainsi qu'une méthode ad hoc pour déterminer le nombre optimal de facteurs à inclure dans le modèle. De plus, ce modèle définit un cadre général pour la prise en compte de la dépendance dans les procédures de tests multiples. L'estimation du taux de faux-positifs (FDR) et de la proportion d'hypothèses nulles (_0), paramètre important qui intervient dans le contrôle des taux d'erreurs, sont étudiés plus particulièrement. Ainsi, on montre que la dépendance entre tests entraîne une instabilité des procédures d'inférence simultanée. Une nouvelle approche est présentée : l'objectif est de réduire cette dépendance, procurant à la fois une augmentation de la puissance des tests et une diminution de la variabilité des taux d'erreurs. Efin, ces résultats méthodologiques sont illustrés à partir de données génomiques et la procédure est implémentée dans le logiciel libre R au sein du package FAMT.


  • Résumé

    Motivated by issues raised by the analysis of gene expressions data, this thesis focuses on the impact of dependence on the properties of multiple testing procedures for high-dimensional data. We propose a methodology based on a Factor Analysis model for the correlation structure. Model parameters are estimated thanks to an EM algorithm and an ad hoc methodology allowing to determine the model that fits best the covariance structure is defined. Moreover, the factor structure provides a general framework to deal with dependence in multiple testing. Two main issues are more particularly considered : the estimation of _0, the proportion of true null hypotheses, and the control of error rates. The proposed framework leads to less variability in the estimation of both _0 and the number of false-positives. Consequently, it shows large improvements of power and stability of simultaneous inference with respect to existing multiple testing procedures. These results are illustrated by real data from microarray experiments and the proposed methodology is implemented in a R package called FAMT.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (210 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. (133-139 p.)

Où se trouve cette thèse ?

  • Bibliothèque : AGROCAMPUS OUEST. Bibliothèque Générale de Rennes.
  • Disponible pour le PEB
  • Cote : G 7
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.