Thèse soutenue

Méthodes avancées de la théorie des matrices aléatoires pour l'apprentissage automatique

FR  |  
EN
Auteur / Autrice : Malik Tiomoko
Direction : Romain CouilletFrédéric Pascal
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 07/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....) - Grenoble Images parole signal automatique (2007-....)
référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Alexandre Gramfort
Examinateurs / Examinatrices : Alfred Hero, Mylène Maïda, Balázs Kégl, Rémi Bardenet
Rapporteurs / Rapporteuses : Alfred Hero, Mylène Maïda

Résumé

FR  |  
EN

L'apprentissage automatique a permis de résoudre de nombreuses applications du monde réel, allant des tâches supervisées à des tâches non supervisées, grâce au développement d'algorithmes puissants (machine à vecteurs de support, réseaux neuronaux profonds, regroupement spectral, etc). Ces algorithmes sont basés sur des méthodes d'optimisation motivées par des intuitions de petites dimensions qui s'effondrent en grande dimension, un phénomène connu sous le nom de "malédiction de la dimensionnalité''. Néanmoins, en supposant que la dimension des données et leur nombre sont à la fois grands et comparables, la théorie des matrices aléatoires fournit une approche systématique pour évaluer le comportement (statistique) de ces grands systèmes d'apprentissage, afin de bien les comprendre et de les améliorer lorsqu'ils sont appliqués à des données de grande dimension. Les analyses précédentes de la théorie des matrices aléatoires (cf. Mai & Couillet, 2018 ; Liao & Couillet, 2019 ; Deng et al., 2019) ont montré que les performances asymptotiques de la plupart des méthodes d'apprentissage automatique et de traitement du signal ne dépendent que des statistiques de premier et de second ordre (moyennes et matrices de covariance des données). Ceci fait des matrices de covariance des objets extrêmement riches qui doivent être "bien traités et compris''. La thèse démontre d'abord comment un traitement empirique et naïf de la matrice de covariance peut détruire le comportement d'algorithmes d'apprentissage automatique en introduisant des biais difficiles à supprimer, alors qu'une estimation cohérente des fonctionnelles d'intérêt en utilisant la théorie des matrices aléatoires évite les biais. Nous montrons ensuite comment les moyennes et les matrices de covariance sont suffisantes (par le biais de fonctionnelles simples) pour traiter le comportement d'algorithmes d'intérêt moderne, tels que les méthodes d'apprentissage multi-tâches et par transfert.