Estimation for counting processes with high-dimensional covariates

par Sarah Lemler

Thèse de doctorat en Mathématiques

Sous la direction de Agathe Guilloux et de Marie-Luce Taupin.

Le président du jury était Fabienne Comte.

Le jury était composé de Cécile Durot, Jean-Yves Dauxois, Sylvie Huet.

Les rapporteurs étaient Cécile Durot, Sophie Lambert-Lacroix.


  • Résumé

    Nous cherchons à estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables. Nous proposons deux approches. D’abord, nous considérons une intensité non-paramétrique et nous l’estimons par le meilleur modèle de Cox étant donné deux dictionnaires de fonctions. Le premier dictionnaire est utilisé pour construire une approximation du logarithme du risque de base et le second pour approximer le risque relatif. Nous considérons une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres inconnus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non-asymptotiques pour l’estimateur Lasso obtenu. Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski. Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein.

  • Titre traduit

    Estimation pour les processus de comptage avec beaucoup de covariables


  • Résumé

    We consider the problem of estimating the intensity of a counting process adjusted on high-dimensional covariates. We propose two different approaches. First, we consider a non-parametric intensity function and estimate it by the best Cox proportional hazards model given two dictionaries of functions. The first dictionary is used to construct an approximation of the logarithm of the baseline hazard function and the second to approximate the relative risk. In this high-dimensional setting, we consider the Lasso procedure to estimate simultaneously the unknown parameters of the best Cox model approximating the intensity. We provide non-asymptotic oracle inequalities for the resulting Lasso estimator. In a second part, we consider an intensity that rely on the Cox model. We propose two two-step procedures to estimate the unknown parameters of the Cox model. Both procedures rely on a first step which consists in estimating the regression parameter in high-dimension via a Lasso procedure. The baseline function is then estimated either via model selection or by a kernel estimator with a bandwidth selected by the Goldenshluger and Lepski method. We establish non-asymptotic oracle inequalities for the two resulting estimators of the baseline function. We conduct a comparative study of these estimators on simulated data, and finally, we apply the implemented procedure to a real dataset on breast cancer.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Evry-Val d'Essonne. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.