Contributions à l'analyse statistique des données de puces à ADN

par Pierre Neuvial

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Stéphane Boucheron.

Soutenue en 2008

à Paris 7 .


  • Résumé

    Cette thèse traite de questions statistiques soulevées par l'analyse de données génomiques de grande dimension, dans le cadre de la recherche contre le cancer. La première partie est consacrée à l'étude des propriétés asymptotiques de procédures de tests multiples visant à contrôler l'espérance (FDR) du taux de fausses découvertes (FDP) parmi les hypothèses rejetées. On introduit un formalisme flexible qui permet de calculer la loi asymptotique du FDP et les conditions de régularité associées pour une vaste famille de procédures de tests multiples, et de comparer la puissance de ces procédures. On s'intéresse ensuite aux liens en termes de contrôle du FDR entre les bornes intrinsèques à trois problèmes de tests multiples: la détection, l'estimation, et la sélection. On relie en particulier la vitesse de convergence dans le problème d'estimation à la régularité de la loi des probabilités critiques au voisinage de 1. La seconde partie est dédiée au développement de méthodes d'analyse des données de puces à ADN en cancérologie. On propose une méthode de prétraitement des données de puces à ADN combinant une régression robuste et un modèle de mélange avec contrainte spatiale, qui permet d'éliminer les biais spatiaux en préservant le signal biologique. On développe ensuite une méthode d'inférence de régulations entre gènes à partir de données d'expression de gènes, qui repose sur des techniques d'apprentissage informatique et de tests multiples. Enfin, on construit un test génomique permettant de déterminer, pour une patiente traitée pour un cancer du sein, si un second cancer survenant sur le même sein est ou non une récidive du premier.

  • Titre traduit

    Contributions to the statistical analysis of DNA microarray data


  • Pas de résumé disponible.


  • Résumé

    This thesis deals with statistical questions raised by the analysis of high-dimensional genomic data for cancer research. In the first part, we study asymptotic properties of multiple testing procedures that aim at controlling the False Discovery Rate (FDR), that is, the expected False Discovery Proportion (FDP) among rejected hypotheses. We develop a versatile formalism to calculate the asymptotic distribution of the FDP an the associated regularity conditions, for a wide range of multiple testing procedures, and compare their asymptotic power. We then study in terms of FDR control connections between intrinsic bounds between three multiple testing problems: detection, estimation and selection. In particular, we connect convergence rates in the estimation problem to the regularity of the p-value distribution near 1. In the second part, we develop statistical methods to study DNA microarrays for cancer research. We propose a microarray normalization method that removes spatial biases while preserving the true biological signal; it combines robust regression with a mixture model with spatial constraints. Then we develop a method to infer gene regulations from gene expression data, which is based on learning and multiple testing theories. Finally, we build a genomic score to predict, for a patient treated for a breast tumor, whether or not a second cancer is a true recurrence of the first cancer.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (223 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : 112 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • PEB soumis à condition
  • Cote : TS (2008) 073
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.