Controlling false discovery proportion in structured data sets | Theses.fr

Iqraa Meah

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Contrôle du taux de faux positifs dans les ensembles de données structurées

FR |

EN

Auteur / Autrice :	Iqraa Meah
Direction :	Etienne Roquain, Sebastian Döhler
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 30/11/2023
Etablissement(s) :	Sorbonne université en cotutelle avec Technische Universität (Darmstadt, Allemagne)
Ecole(s) doctorale(s) :	École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury :	Président / Présidente : Stéphane Robin
	Examinateurs / Examinatrices : Sylvain Arlot, Magalie Fromont, Antje Jahn
	Rapporteurs / Rapporteuses : Jelle Goeman, Christophe Ambroise

Mots clés

FR |

EN

Mots clés contrôlés

Probabilités

Analyse des données

Analyse multivariée

Tests d'hypothèses (statistique)

Mots clés libres

Tests multiples

Taux de faux positifs

P-Valeurs discrète

P-Valeurs en ligne

P-Valeurs pré-Ordonnées

Résumé

FR |

EN

Ce travail propose de nouvelles méthodologies pour contrôler la proportion de fausses découvertes (FDP) tout en tenant compte des structures inhérentes aux données contemporaines. Depuis les travaux fondamentaux de Benjamini et Hochberg (1995) (BH) introduisant le FDP, les procédures de tests multiples ont trouvé une application dans de nombreux domaines. La procédure BH a facilité l’identification de variables significatives dans de grands ensembles de données, permettant de répondre à des questions scientifiques dans des domaines tels que la biologie, les essais cliniques et le marketing, tout en fournissant des garanties sur la proportion de fausses découvertes. Toutefois, la procédure BH présente plusieurs limites : elle est plus efficace pour des p-valeurs uniformes sous l’hypothèse nulle ; elle est développée dans un cadre offline nécessitant la connaissance simultanée de toutes les p-valeurs ; les garanties de contrôle des fausses découvertes sont en espérance. Ces limitations peuvent entraîner une perte de puissance, une réduction de l’interprétabilité, voire une inflation de l’erreur de Type I dans différents contextes où les données sont considérées comme "structurées", tels que le contexte de p-valeurs discrètes, en ligne, pré-ordonnées ou pondérées. Ce travail vise à combler ces lacunes en fournissant de nouvelles procédures et méthodologies qui s’adaptent à chacun de ces contextes. Cela donne, in fine, au praticien des outils plus efficaces pour identifier les variables significatives dans un ensemble de données structurées, comme nous l’illustrons dans diverses expériences numériques.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contrôle du taux de faux positifs dans les ensembles de données structurées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contrôle du taux de faux positifs dans les ensembles de données structurées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses