Model selection via cross-validation in density estimation, regression, and change-points detection

par Alain Celisse

Thèse de doctorat en Mathématiques

Sous la direction de Stéphane Robin.

  • Titre traduit

    Sélection de modèle par validation-croisée en estimation de densité, régression et détection de ruptures


  • Résumé

    L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement du leave-p-out. Ces algorithmes sont encore mal compris d'un point de vue théorique, notamment non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal p de l'ensemble test. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-p-out n'est habituellement pas applicable en pratique (grande complexité algorithmique). Pourtant, nous parvenons à obtenir des formules closes de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs. Nous envisageons le problème de la sélection de modèles par validation-croisée sous deux aspects : l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de p entièrement fondé sur les données, et la sélection de modèle. Ce second aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité du leave-p-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité en estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Nous proposons une procédure entièrement fondée sur le rééchantillonnage permettant de traiter le cas de données hétéroscédastiques avec une complexité algorithmique raisonnable.


  • Résumé

    In this thesis, we aim at studying a family of resampling algorithms, referred to as cross-validation, and especially of one of them named leave-p-out. Extensively used in practice, these algorithms remain poorly understood, especially in the non-asymptotic framework. Our analysis of the leave-p-out algorithm is carried out both in density estimation and regression. Its main concern is to better understand cross-validation with respect to the cardinality p of the test set. From a general point of view, cross-validation is devoted to estimate the risk of an estimator. Usually due to a prohibitive computational complexity, the leave-p-out is intractable. However, we turned it into a feasible procedure thanks to closed-form formulas for the risk estimator of a wide range of widespread estimators. Besides, the question of model selection via cross-validation is considered through two approaches. The first one relies on the optimal estimation of the risk in terms of a bias-variance tradeoff, which results in a density estimation procedure based on a fully data-driven choice of p. This procedure is successfully applied to the multiple testing problem. The second approach is related to the interpretation of cross-validation in terms of penalized criterion. The quality of the leave-p-out procedure is theoretically assessed through oracle inequalities as well as an adaptivity result in the density estimation setup. The change-points detection problem is another concern of this work. It is explored through an extensive simulation study based on theoretical considerations. From this, we propose a fully resampling-based procedure, which enables to deal with the hard problem of heteroscedasticity, while keeping a reasonable computational complexity.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (214 p.)
  • Annexes : Bibliogr. en fin de chapitres

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2008)221
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.