Thèse soutenue

Complexités statistiques et informatiques de problèmes d'estimation robustes en haute dimension

FR  |  
EN
Auteur / Autrice : Jules Depersin
Direction : Guillaume Lecué
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 20/12/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Centre de recherche en économie et statistique (France)
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau, Essonne)
Jury : Président / Présidente : Arnak S. Dalalyan
Examinateurs / Examinatrices : Guillaume Lecué, Arnak S. Dalalyan, Peter L. Bartlett, Gábor Lugosi, Claire Brécheteau, Stanislav Minsker
Rapporteurs / Rapporteuses : Peter L. Bartlett, Gábor Lugosi

Résumé

FR  |  
EN

La théorie de l'apprentissage statistique vise à fournir une meilleure compréhension des propriétés statistiques des algorithmes d'apprentissage. Ces propriétés sont souvent dérivées en supposant que les données sous-jacentes sont recueillies par échantillonnage de variables aléatoires gaussiennes (ou subgaussiennes) indépendantes et identiquement distribuées. Ces propriétés peuvent donc être radicalement affectées par la présence d'erreurs grossières (également appelées "valeurs aberrantes") dans les données, et par des données à queue lourde. Nous sommes intéressés par les procédures qui ont de bonnes propriétés même lorsqu'une partie des données est corrompue et à forte queue, procédures que nous appelons extit{robusts}, que nous obtenons souvent dans cette thèse en utilisant l'heuristique Median-Of-Mean.Nous sommes particulièrement intéressés par les procédures qui sont robustes dans des configurations à haute dimension, et nous étudions (i) comment la dimensionnalité affecte les propriétés statistiques des procédures robustes, et (ii) comment la dimensionnalité affecte la complexité computationnelle des algorithmes associés. Dans l'étude des propriétés statistiques (i), nous trouvons que pour une large gamme de problèmes, la complexité statistique des problèmes et sa "robustesse" peuvent être en un sens "découplées", conduisant à des limites où le terme dépendant de la dimension est ajouté au terme dépendant de la corruption, plutôt que multiplié par celui-ci. Nous proposons des moyens de mesurer les complexités statistiques de certains problèmes dans ce cadre corrompu, en utilisant par exemple la dimension VC. Nous fournissons également des limites inférieures pour certains de ces problèmes.Dans l'étude de la complexité computationnelle de l'algorithme associé (ii), nous montrons que dans deux cas particuliers, à savoir l'estimation robuste de la moyenne par rapport à la norme euclidienne et la régression robuste, on peut relaxer les problèmes d'optimisation associés qui deviennent exponentiellement difficiles avec la dimension pour obtenir un algorithme traitable qui se comporte de manière polynomiale dans la dimension.