Motifs exceptionnels dans des séquences hétérogènes. Contributions à la théorie et à la méthodologie des tests multiples

par Etienne Roquain

Thèse de doctorat en Mathématiques

Sous la direction de Sophie Schbath.


  • Résumé

    La première partie de la thèse présente des nouvelles méthodes statistiques pour détecter les motifs de fréquence exceptionnelle dans un génome. La principale contribution de ce travail est de proposer une mesure de l'exceptionnalité d'un motif qui tient compte d'une certaine hétérogénéité dans la séquence. Pour cela, nous établissons plusieurs approximations de Poisson composée pour la loi du comptage d'un motif râre lorsque la séquence suit un modèle markovien hétérogène, avec une hétérogénéité fixe ou aléatoire. Nous proposons aussi des procédures permettant de tester simultanément l'exceptionnalité de plusieurs motifs, ce qui introduit la thématique de la seconde partie de la thèse. Cette dernière est consacrée au problème statistique général consistant à tester simultanément un ensemble d'hypothèses nulles. Nous proposons notamment un nouvel éclairage sur les mathématiques mises en jeu dans les résultats classiques du contrôle du taux moyen de fausses découvertes (FDR), ainsi que de nouvelles procédures par rééchantillonnage pour contrôler non-asymptotiquement la probabilité d'avoir fait au moins une fausse découverte (FWER)

  • Titre traduit

    Exceptional motifs in heterogeneous sequences. Contributions to theory and methodology of multiple testing


  • Résumé

    The first part of the thesis presents new statistical methods to find words with unexpected frequencies in DNA sequences. The main contribution of this work is to take the sequence heterogeneity into account when assessing the exceptionality of a word. For this, we propose several compound poisson approximations for the count of a rare word in a Markovian heterogeneous model, with a fixed or a random heterogeneity. We also propose methods to test simultaneously the exceptionality of several motifs. This leads to the second part of the thesis, in which we consider the general statistical problem of testing simultaneously a given set of null hypotheses. First, we introduce a "set-ouput" point of view on multiple testing procedures, which gives short proofs for existing false discovery rate (FDR) control results. Second, new procedures are investigated, as adaptive procedures or resampling-based procedures. The latter are derived from general confidence regions and provide a non-asymptotic control of the family-wise error rate (FWER)

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (226 p.)
  • Annexes : Bibliogr. p.221 - 226

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)141
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : ROQU
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.