Rééchantillonnage et sélection de modèles optimale pour l'estimation de la densité

par Matthieu Lerasle

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Béatrice Laurent et de Clémentine Prieur.

Soutenue en 2009

à Toulouse, INSA .


  • Résumé

    Le principal objectif de cette thèse est d’étudier deux méthodes de calibration automatique de la pénalité pour la sélection de modèle. L’avantage de ces méthodes est double, d’une part, elles sont toujours implémentables, elles ont mˆeme souvent été utilisées dans des problèmes pratiques avec succès, d’autre part, elles sont optimales puisqu’elles permettent de sélectionner asymptotiquement le meilleur modèle. Il existe d’autres méthodes de pénalisation calculables en pratique, quand les données sont indépendantes. Néanmoins, en dehors des collections de modèles très réguliers, ces pénalités sont très pessimistes, voire dépendent de constantes inconnues comme la norme sup de la densité. De plus, quand on veut utiliser les preuves classiques pour des données mélangeantes, les pénalités que l’on obtient dépendent toujours de constantes inconnues de l’utilisateur (voir le chapitre 3). Le chapitre 2 étudie l’heuristique de pente et les pénalités par rééchantillonnage dans le cas de données indépendantes. On donne une condition suffisante pour que l’heuristique de la pente soit optimale, en utilisant l’inégalité de concentration de Talagrand pour le supremum du processus empirique. On étudie aussi l’approximation du processus empirique par sa version rééchantillonnée et on en déduit que la même condition suffit à garantir l’optimalité des méthodes par rééchantillonnage. Le chapitre 3 est consacré à l’étude de pénalités classiques quand les observations sont mélangeantes. On montre des inégalités oracles et l’adaptativité de l’estimateur sélectionné à la régularité de la densité. La pénalité dépend des coefficients de mélange qui peuvent parfois être évalués. Le chapitre 4 étend les résultats du chapitre 2 au cas de données mélangeantes. On montre ainsi que les méthodes de la pente et bootstrap sont également optimales dans ce cas, sous le même type de conditions. Ces nouvelles pénalités sont toujours calculables en pratique et le modèle sélectionné est asymptotiquement un oracle, ce qui améliore beaucoup les résultats du chapitre 3. Le chapitre 5 traite du problème des régions de confiance adaptatives. Contrairement au cas de l’estimation, cette adaptation n’est que très rarement possible. Quand elle l’est, nous construisons des régions adaptatives. En particulier, on améliore quelques résultats de concentration du chapitre 2 lorsque les données sont à valeurs réelles, notamment ceux des U-statistiques.

  • Titre traduit

    Resampling and optimal model selection in density estimation


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (159 p.)
  • Annexes : Bibliogr. p. 155-159

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées. Bibliothèque centrale.
  • Disponible pour le PEB
  • Cote : 2009/979/LER
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.