Sélection de modèles en régression non gaussienne : applications à la sélection de variables et aux tests de survie accélérés

par Marie Sauvé

Thèse de doctorat en Mathématiques

Sous la direction de Pascal Massart.


  • Résumé

    Cette thèse traite de la sélection de modèles en régression non gaussienne. Notre but est d’obtenir des informations sur une fonction s dont on n’observe qu’un certain nombre de valeurs perturbées par des bruits non nécessairement gaussiens. Dans un premier temps, nous considérons des modèles de fonctions constantes par morceaux associés à une collection de partitions de l’ensemble de définition de s. Nous déterminons un critère des moindres carrés pénalisés qui permet de sélectionner une partition dont l’estimateur associé (de type regressogramme) vérifie une inégalité de type oracle. La sélection d’un modèle de fonctions constantes par morceaux ne conduit pas en général à une bonne estimation de s, mais permet notamment de détecter les ruptures de s. Nous proposons aussi une méthode non linéaire de sélection de variables qui repose sur l’application de plusieurs procédures CART et sur la sélection d’un modèle de fonctions constantes par morceaux. Dans un deuxième temps, nous considérons des modèles de fonctions polynomiales par morceaux, dont les qualités d’approximation sont meilleures. L’objectif est d’estimer s par un polynôme par morceaux dont le degré peut varier d’un morceau à l’autre. Nous déterminons un critère pénalisé qui sélectionne une partition et une série de degrés dont l’estimateur polynomial par morceaux associé vérifie une inégalité de type oracle. Nous appliquons aussi ce résultat pour déterminer les ruptures d’une fonction affine par morceaux. Ce dernier travail est motivé par la détermination d’un intervalle de stress convenable pour les tests de survie accélérés.

  • Titre traduit

    Model selection in non gaussian regression : applications to variable selection and accelerating life test


  • Résumé

    This thesis deals with model selection in non Gaussian regression. Our aim is to get informations on a function s given only some values perturbed by noises non necessarily Gaussian. In a first part, we consider histogram models (i. E. Classes of piecewise constant functions) associated with a collection of partitions of the set on which s is defined. We determine a penalized least squares criterion which selects a partition whose associated estimator satisfies an oracle inequality. Selecting a histogram model does not always lead to an accurate estimation of s, but allows for example to detect the change-points of s. In order to perform variable selection, we also propose a non linear method which relies on the use of CART and on histogram model selection. In a second part, we consider piecewise polynomial models, whose approximation properties are better. We aim at estimating s with a piecewise polynomial whose degree can vary from region to region. We determine a penalized criterion which selects a partition and a series of degrees whose associated piecewise polynomial estimator satisfies an oracle inequality. We also apply this result to detect the change-points of a piecewise affine function. The aim of this last work is to provide an adequate stress interval for Accelerating Life Test.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (127 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 123-124

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2006)201
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : SAUV
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.