Thèse soutenue

Estimation for counting processes with high-dimensional covariates

FR  |  
EN
Auteur / Autrice : Sarah Lemler
Direction : Agathe GuillouxMarie-Luce Taupin
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 09/12/2014
Etablissement(s) : Evry-Val d'Essonne
Ecole(s) doctorale(s) : Ecole doctorale des Génomes aux organismes (Versailles ; 2000-2015)
Partenaire(s) de recherche : Laboratoire : Laboratoire analyse et modélisation pour la biologie et l'environnement (Evry, Essonne ; 1998-)
Jury : Président / Présidente : Fabienne Comte
Examinateurs / Examinatrices : Cécile Durot, Jean-Yves Dauxois, Sylvie Huet
Rapporteurs / Rapporteuses : Cécile Durot, Sophie Lambert-Lacroix

Résumé

FR  |  
EN

Nous cherchons à estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables. Nous proposons deux approches. D’abord, nous considérons une intensité non-paramétrique et nous l’estimons par le meilleur modèle de Cox étant donné deux dictionnaires de fonctions. Le premier dictionnaire est utilisé pour construire une approximation du logarithme du risque de base et le second pour approximer le risque relatif. Nous considérons une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres inconnus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non-asymptotiques pour l’estimateur Lasso obtenu. Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski. Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein.