Apprentissage statistique pour l'échantillonage en grande dimension

Mehdi Dagdoug

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Mehdi Dagdoug
Direction :	Camelia Goga, David Haziza
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 12/07/2022
Etablissement(s) :	Bourgogne Franche-Comté
Ecole(s) doctorale(s) :	École doctorale Carnot-Pasteur (Besançon ; Dijon ; 2012-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire de Mathématiques de Besançon (Besançon) - Laboratoire de Mathématiques de Besançon / LMB
	Etablissement de préparation : Université de Franche-Comté (1971-....)
Jury :	Président / Présidente : Clément Dombry
	Rapporteurs / Rapporteuses : Jean-Michel Poggi, Anne Ruiz-Gazen, Yves Tillé

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Mots clés libres

Théorie des sondages

Données manquantes

Statistique en grande dimension

Forêts aléatoires

Résumé

FR |

EN

Dans cette thèse, nous considérons le problème de l'estimation de totaux en population finie en présence d'un grand nombre de variables auxiliaires. Les scénarios de réponse totale et de non-réponse partielle sont étudiés. Nous examinons les propriétés théoriques et empiriques d'estimateurs assistés par modélisation et d'estimateurs imputés, construits à partir de modèles prédictifs. Les modèles considérés sont des modèles de type machine learning réputés pour être peu sensibles au fléau de la dimension, fréquemment étudiés dans la littérature de l'apprentissage statistique. Dans un cadre de réponse totale, nous examinons les propriétés de différents estimateurs assistés par modélisation en considérant un cadre asymptotique dans lequel le nombre de covariables tend vers l'infini. Des conditions suffisantes sont obtenues pour la convergence d'estimateurs par modélisation assistée basés sur des modèles linéaires et linéaires pénalisés tel s que Ridge, Lasso ou Elastic-net. De plus, une nouvelle classe d'estimateurs des totaux par modélisation assistée basée sur des algorithmes de forêts aléatoires est suggérée. Leurs propriétés en échantillons finis et asymptotiques sont étudiées. Des estimateurs de la variance, classique et basé sur la validation croisée, sont également proposés. L'efficacité des estimateurs est testée sur des données simulées et des données réelles d'audience fournies par Médiamétrie. En présence de nonréponse partielle, nous avons réalisé une large étude par simulation pour comparer des estimateurs imputés basés sur différents modèles prédictifs provenant de l'apprentissage statistique. Nous avons de plus étudié théoriquement les propriétés des arbres de régression et des forêts aléatoires pour l'imputation. Les propriétés en échantillons finis et asymptotiques de ces modèles ont été examinées et leur efficacité a été testée sur des simulations.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage statistique pour l'échantillonage en grande dimension

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage statistique pour l'échantillonage en grande dimension

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses