Quelques problèmes de matrices aléatoires et de statistiques en grande dimension
Auteur / Autrice : | Vanessa Piccolo |
Direction : | Alice Guionnet, Gérard Ben Arous |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 21/02/2025 |
Etablissement(s) : | Lyon, École normale supérieure |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Unité de Mathématiques Pures et Appliquées (Lyon ; 1991-....) - Courant institute of mathematical sciences (New York) |
Jury : | Président / Présidente : Mireille Capitaine |
Examinateurs / Examinatrices : Alice Guionnet, Gérard Ben Arous, Mireille Capitaine, Charles Bordenave, Camille Male, Jean-Christophe Mourrat, Valentina Ros | |
Rapporteurs / Rapporteuses : Charles Bordenave, Aukosh Jagannath |
Mots clés
Résumé
Cette thèse explore certains problèmes liés aux grandes matrices aléatoires et aux statistiques en grande dimension, motivés par la nécessité d'améliorer notre compréhension de l'apprentissage profond. L'apprentissage des réseaux neuronaux profonds implique la résolution de problèmes d'optimisation non convexes, à grande échelle et en grande dimension, qui devraient être théoriquement intraitables mais sont étonnamment réalisables en pratique. Afin de comprendre ce paradoxe, nous étudions des modèles solvables qui concilient pertinence pratique et rigueur mathématique. Les matrices aléatoires et les statistiques en grande dimension jouent un rôle central dans ces travaux, en raison du grand volume de données et de la grande dimensionnalité inhérents à ces modèles. D'abord, nous considérons le modèle des ''random features'', un réseau neuronal à deux couches avec des poids fixes et aléatoires dans la première couche et des poids apprenables dans la deuxième. Notre étude se concentre sur le spectre asymptotique de la matrice du noyau conjuguée YY* avec Y= f(WX), où W et X sont des matrices aléatoires rectangulaires avec des entrées i.i.d., et f est une fonction d’activation non linéaire appliquée élément par élément. Nous étendons les résultats obtenus précédemment sur les distributions à queues légères pour W et X en considérant deux nouveaux contextes. Premièrement, nous étudions le cas du biais additif Y =f (WX + B), où B est une matrice aléatoire gaussienne indépendante de rang un, ce qui modélise de plus près les architectures de réseaux neuronaux rencontrées en pratique. Pour obtenir les asymptotiques de la densité spectrale empirique, nous utilisons la méthode du résolvant via l'expansion des cumulants. Deuxièmement, nous analysons le cas où W a des entrées à queues lourdes, X reste à queues légères, et f est une fonction lisse, bornée et impaire. Nous montrons que les poids à queues lourdes induisent des corrélations beaucoup plus fortes entre les entrées de Y, ce qui se traduit par un comportement spectral inédit. Cette analyse s’appuie sur la méthode des moments via la théorie des probabilités de trafic. Ensuite, nous abordons l’ACP tensorielle (analyse en composantes principales), un problème d’inférence en grande dimension qui étudie la difficulté computationnelle d’estimer un vecteur signal inconnu à partir d’observations tensorielles bruitées via le maximum de vraisemblance. L’ACP tensorielle sert de prototype pour comprendre l’optimisation non convexe en grande dimension via des méthodes basées sur le gradient. Cette compréhension peut être abordée sous deux angles : la complexité topologique du paysage d’optimisation et les dynamiques d’optimisation des méthodes du premier ordre. Concernant la complexité du paysage, nous étudions la ''complexité annealed'' des polynômes gaussiens aléatoires sur la sphère unitaire de dimensions N en présence de polynômes déterministes dépendant de vecteurs unitaires fixes et de paramètres externes. En utilisant la formule de Kac-Rice et les asymptotiques du déterminant pour une perturbation de rang fini des matrices de Wigner, nous dérivons des formules variationnelles pour les asymptotiques exponentielles du nombre moyen de points critiques et de maxima locaux. Concernant les dynamiques d’optimisation en grande dimension, nous analysons la descente de gradient stochastique (SGD) et le flux de gradient (GF) pour l’ACP tensorielle avec plusieurs directions cachées. Nous montrons que SGD atteint le même seuil computationnel que dans le cas r=1, mais GF nécessite plus d’échantillons pour récupérer toutes les directions. Les signaux sont récupérés via un processus d’''élimination séquentielle'' où les corrélations croissent successivement selon un ordre déterminé par les conditions initiales et les rapports signal-bruit (SNR). Dans le cas matriciel (p=2), des SNR bien séparés permettent une récupération exacte, tandis que des SNR égaux mènent à la récupération du sous-espace engendré.