Méthodes avancées de la théorie des matrices aléatoires pour l'apprentissage automatique
Auteur / Autrice : | Malik Tiomoko |
Direction : | Romain Couillet, Frédéric Pascal |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du signal et des images |
Date : | Soutenance le 07/10/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....) - Grenoble Images parole signal automatique (2007-....) |
référent : Faculté des sciences d'Orsay | |
Jury : | Président / Présidente : Alexandre Gramfort |
Examinateurs / Examinatrices : Alfred Hero, Mylène Maïda, Balázs Kégl, Rémi Bardenet | |
Rapporteurs / Rapporteuses : Alfred Hero, Mylène Maïda |
Mots clés
Mots clés contrôlés
Résumé
L'apprentissage automatique a permis de résoudre de nombreuses applications du monde réel, allant des tâches supervisées à des tâches non supervisées, grâce au développement d'algorithmes puissants (machine à vecteurs de support, réseaux neuronaux profonds, regroupement spectral, etc). Ces algorithmes sont basés sur des méthodes d'optimisation motivées par des intuitions de petites dimensions qui s'effondrent en grande dimension, un phénomène connu sous le nom de "malédiction de la dimensionnalité''. Néanmoins, en supposant que la dimension des données et leur nombre sont à la fois grands et comparables, la théorie des matrices aléatoires fournit une approche systématique pour évaluer le comportement (statistique) de ces grands systèmes d'apprentissage, afin de bien les comprendre et de les améliorer lorsqu'ils sont appliqués à des données de grande dimension. Les analyses précédentes de la théorie des matrices aléatoires (cf. Mai & Couillet, 2018 ; Liao & Couillet, 2019 ; Deng et al., 2019) ont montré que les performances asymptotiques de la plupart des méthodes d'apprentissage automatique et de traitement du signal ne dépendent que des statistiques de premier et de second ordre (moyennes et matrices de covariance des données). Ceci fait des matrices de covariance des objets extrêmement riches qui doivent être "bien traités et compris''. La thèse démontre d'abord comment un traitement empirique et naïf de la matrice de covariance peut détruire le comportement d'algorithmes d'apprentissage automatique en introduisant des biais difficiles à supprimer, alors qu'une estimation cohérente des fonctionnelles d'intérêt en utilisant la théorie des matrices aléatoires évite les biais. Nous montrons ensuite comment les moyennes et les matrices de covariance sont suffisantes (par le biais de fonctionnelles simples) pour traiter le comportement d'algorithmes d'intérêt moderne, tels que les méthodes d'apprentissage multi-tâches et par transfert.