Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et modèles statistiques appliqués à l'économie et la finance

par Matthieu Cornec

Thèse de doctorat en Mathématiques

Sous la direction de Patrice Bertail.

Soutenue en 2009

à Paris 10 .


  • Résumé

    L'objectif initial de la première partie de cette thèse est d'éclairer par la théorie une pratique communément répandue au sein des praticiens pour l'audit (ou risk assessment en anglais) méthodes prédictives (ou prédicteurs) : la validation croisée (ou cross validation en anglais). La seconde partie s'inscrit principalement dans la théorie des processus et son apport concerne essentiellement les applications à des données économiques et financières. Le chapitre un s'intéresse au cas classique de prédicteurs de Vapnik-Chernovenkis dimension (VC-dimension dans la suite) finie obtenus par minimisation du risque empirique. Le chapitre deux s'intéresse donc à une classe plus large que celle du chapitre un : les estimateurs stables. Dans ce cadre, nous montrons que les méthodes de validation croisée sont encore consistantes. Dans le chapitre trois nous exhibons un cas particulier important le subagging où la méthode de validation croisée permet de construire des intervalles de confiance plus étroits que la méthodologie traditionnelle issue de la minimisation du risque empirique sous l'hypothèse de VC-dimension finie. Le chapitre 4 propose un proxy mensuel du taux de croissance du Produit Intérieur Brut français qui est disponible officiellement uniquement à fréquence trimestrielle. Le chapitre cinq décrit la méthodologie pour construire un indicateur synthétique mensuel dans les enquêtes de conjoncture dans le secteur des services en France. L'indicateur synthétique construit est publié mensuellement par l'Insee dans les Informations Rapides. Le chapitre six décrit un modèle semi-paramétrique de prix spot d'électricité sur les marchés de gros ayant des applications dans la gestion du risque de la production d'électricité.


  • Résumé

    The initial goal of this thesis is to get a better understanding of a methodology commonly used among practitionners : the cross-validation. The latter is designed to assess the risk of predictors. The second part of this thesis is dedicated to statistical models applied to real word issues encountered in the professional life. It consists mostly in time series models for economic and financial data. In chapter one, we derive concentration inequalities for the cros-validation estimate of the generalization error for empirical error for empirical risk minimizers. In the general setting, we prove sanity-Check bounds : bounds showing that worst-case error of this estimate is not much worse that of training error estimate. In chapter two, we prove probality bounds for the cross-validation estimate of the generalization error for stable predictors in the context of risk assesment. The notion of stability characterizes class of predictors with infinite VC dimension, suchas k-nearest neighbors rules, bayesian algorithm,boosting. In chapter three, we obtain concentration inequalities for the cross-validation estimate of the generaliszation error for subagged estimators. An interesting consequence is that the probability upper bound is bounded by the minimun of a Hoeffding-type bound and a Vapnik-type bounds, and thus is smaller than 1 even for small learning set. Chapter four gives a monthly proxy of the french GDP growth rate through the Kalman filter metthodology. Chapter five extracts a monthly leading indicator of the french business climate in the services sector. Eventually, chapter six gives a semi-parametric approach to simulate spot electricity prices for energy risk management.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (185 p.)
  • Annexes : Bibliogr. p.177-185

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Ouest Nanterre La Défense. Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : T 09 PA10-075
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.