Thèse soutenue

Apprentissage statistique pour l'échantillonage en grande dimension

FR  |  
EN
Auteur / Autrice : Mehdi Dagdoug
Direction : Camelia GogaDavid Haziza
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 12/07/2022
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Carnot-Pasteur (Besançon ; Dijon ; 2012-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques de Besançon (Besançon) - Laboratoire de Mathématiques de Besançon / LMB
Etablissement de préparation : Université de Franche-Comté (1971-....)
Jury : Président / Présidente : Clément Dombry
Rapporteurs / Rapporteuses : Jean-Michel Poggi, Anne Ruiz-Gazen, Yves Tillé

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans cette thèse, nous considérons le problème de l'estimation de totaux en population finie en présence d'un grand nombre de variables auxiliaires. Les scénarios de réponse totale et de non-réponse partielle sont étudiés. Nous examinons les propriétés théoriques et empiriques d'estimateurs assistés par modélisation et d'estimateurs imputés, construits à partir de modèles prédictifs. Les modèles considérés sont des modèles de type machine learning réputés pour être peu sensibles au fléau de la dimension, fréquemment étudiés dans la littérature de l'apprentissage statistique. Dans un cadre de réponse totale, nous examinons les propriétés de différents estimateurs assistés par modélisation en considérant un cadre asymptotique dans lequel le nombre de covariables tend vers l'infini. Des conditions suffisantes sont obtenues pour la convergence d'estimateurs par modélisation assistée basés sur des modèles linéaires et linéaires pénalisés tel s que Ridge, Lasso ou Elastic-net. De plus, une nouvelle classe d'estimateurs des totaux par modélisation assistée basée sur des algorithmes de forêts aléatoires est suggérée. Leurs propriétés en échantillons finis et asymptotiques sont étudiées. Des estimateurs de la variance, classique et basé sur la validation croisée, sont également proposés. L'efficacité des estimateurs est testée sur des données simulées et des données réelles d'audience fournies par Médiamétrie. En présence de nonréponse partielle, nous avons réalisé une large étude par simulation pour comparer des estimateurs imputés basés sur différents modèles prédictifs provenant de l'apprentissage statistique. Nous avons de plus étudié théoriquement les propriétés des arbres de régression et des forêts aléatoires pour l'imputation. Les propriétés en échantillons finis et asymptotiques de ces modèles ont été examinées et leur efficacité a été testée sur des simulations.