Optimisation de critères de choix de modèles pour un faible nombre de données

par Maïza Bekara

Thèse de doctorat en Sciences appliquées. Automatique et traitement du signal

Sous la direction de Gilles Fleury.


  • Résumé

    Dans ce travail, nous proposons un critère de choix de modèles fondé sur la divergence symétrique de Kullback. Le critère proposé, noté KICc, est une version améliorée du critère asymptotique KIC (Cavanaugh, Statistics and Probability Letters, vol. 42, 1999) pour un faible nombre de données. KICc est un estimateur exactement non biaisé pour les modèles de régression linéaires et approximativement non biaisé pour les modèles autorégressives et les modèles de régression non linéaires. Les deux critères KIC et KICc sont développés sous l'hypothèse que le modèle générateur est correctement spécifié ou sur-paramétré par le modèle candidat. Nous étudions, dans le cas où cette hypothèse n'est pas vérifiée, les propriétés du biais des deux estimateurs KIC et KICc et la qualité des modèles qu'ils sélectionnent. Nous considérons aussi le PKIC, une extension du critère KICc dans un cadre de modélisation où les données d'intérêt, appelées données futures, sont indirectement observées ou manquantes. Le KICc est proposé pour résoudre le problème de débruitage d'un signal déterministe noyé dans du bruit en utilisant une projection sur une base orthogonale. La séparation sous espaces signal et bruit est faite en retenant la base minimisant le critère KICc. Finalement, nous proposons une optimisation calculatoire d'un critère de sélection de modèles fondé sur le principe de la validation croisée et en utilisant la densité prédictive bayésienne comme modèle probabiliste pour les données futures. Le critère proposé, noté CVBPD, est un critère de sélection de modèles consistant pour les modèles de régression linéaire


  • Résumé

    In this work we propose a model selection criterion based on Kullback's symmetric divergence. The developed criterion, called KICc is a bias corrected version of the asymptotic criterion KIC (Cavanaugh, Statistics and Probability Letters, vol. 42, 1999). The correction is of particular use when the sample size is small or when the number of fitted parameters is moderate to large fraction of the sample size. KICc is an exactly unbiased estimator for linear regression models and appreciatively unbiased for autoregressive and nonlinear regression models. The two criteria KIC and KICc are developed under the assumption that the true model is correctly specified or overfitted by the candidate models. We investigate the bias properties and the model selection performance of the two criteria in the underfitted case. An extension of KICc, called PKIC is also developed for the case of future experiment where date of interest is missing or indirectly observed. The KICc is implemented to solve the problem of denoising by using orthogonal projection and thresholding. The threshold is obtained as the absolute value of the kth largest coefficient that minimizes KICc. Finally, we propose a computational optimization of a cross validation based model selection criterion that uses the Bayesian predictive density as candidate model and marginal likelihood as a cost function. The developed criterion, CVBPD, is a consistent model selection criterion for linear regression.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 139 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.[126]-134

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2004)139
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.