Thèse soutenue

Contributions à la sélection de variables en grande dimension et ses utilisations en biologie

FR  |  
EN
Auteur / Autrice : Perrine Lacroix
Direction : Pascal MassartMarie-Laure Martin-Magniette
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 16/12/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Institut des sciences des plantes de Paris-Saclay (Gif-sur-Yvette, Essonne ; 2015-....)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Jury : Président / Présidente : Gilles Blanchard
Examinateurs / Examinatrices : Adeline Leclercq-Samson, Pierre Neuvial, Claire Lacour, Franck Picard
Rapporteurs / Rapporteuses : Adeline Leclercq-Samson, Pierre Neuvial

Résumé

FR  |  
EN

La révolution des données que nous connaissons aujourd'hui se caractérise par la prolifération de données massives dans tous les domaines d'activités économiques, mais aussi dans les sciences. Cette révolution des données scientifiques concerne en particulier la biologique moléculaire. L'étude de l'expression des gènes d'un organisme est l'exemple clé mis en avant dans cette thèse. Les données d'expression de gènes sont typiquement caractérisées par un nombre élevé de variables descriptives pour un nombre d'observations restant limité. Identifier les variables pertinentes constitue une étape cruciale pour l'exploitation des données ainsi que leur interprétation. Cette thèse est centrée sur la question de la sélection de variables dans le cadre statistique de la régression linéaire gaussienne en grande dimension. Le cœur de notre analyse repose sur l'introduction de nouvelles fonctions de pénalité pour le critère d'ajustement des moindres carrés. Celles-ci dépendent de constantes, que nous voyons comme des hyperparamètres à calibrer sur le jeu de données d'étude. L'originalité de notre approche réside en l'introduction du False Discovery Rate (FDR) pour réaliser cette calibration. Dans un premier temps, nous prouvons un encadrement théorique du FDR lorsque les variables sont ordonnées, puis nous mettons en place un algorithme de calibration de l'hyperparamètre pour satisfaire un compromis entre le contrôle du risque prédictif et celui du FDR. Pour sélectionner des variables non-ordonnées en grande dimension, nous revisitons le thème de la sélection de variables via la minimisation d'un critère convexe de type Lasso. Nous proposons une approche qui consiste à choisir les variables, ordonnées par le chemin de régularisation, via une méthode de pénalisation adaptative. Des simulations intensives mettent en évidence l'intérêt du ré-échantillonage et des pénalités non-asymptotiques. Nous généralisons la méthode de calibration adaptative de pénalité dite "de l'heuristique de pente" à la calibration de deux hyperparamètres simultanément ainsi qu'au contexte d'une collection de modèles aléatoires qui est ici le nôtre. Enfin, notre nouvel algorithme, ainsi que certaines procédures de sélection de variables, sont appliqués sur un jeu de données transcriptomiques d'Arabidopsis thaliana. L'identification des facteurs de transcription de gènes cibles constitue ici la problématique biologique.