Thèse soutenue

Sur la dynamique des algorithmes du gradient dans les modèles plantés en haute dimension
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Stefano Sarao Mannelli
Direction : Lenka Zdeborová
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance le 02/10/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Physique en Île-de-France (Paris ; 2014-....)
Partenaire(s) de recherche : référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
Laboratoire : Institut de physique théorique (Gif-sur-Yvette, Essonne ; 1982-....)
Jury : Président / Présidente : Silvio Franz
Examinateurs / Examinatrices : Federico Ricci-Tersenghi, Gérard Ben Arous, Andrew Saxe
Rapporteurs / Rapporteuses : Federico Ricci-Tersenghi, Gérard Ben Arous

Résumé

FR  |  
EN

L'optimisation des modèles non convexes en haute dimension a toujours été un problème difficile et fascinant. Puisque nos avons la tendance à appliquer des notions que nous avons expérimentées et naturellement apprises en basse dimension, notre intuition est souvent égarée.Ces problèmes apparaissent naturellement et deviennent de plus en plus pertinents, en particulier dans une époque où une quantité de plus en plus importante de données est disponible. La plupart des informations que nous recevons sont inutiles et l'identification de ce qui est pertinent est un problème complexe.Souvent les problèmes d'apprentissage automatique et les problèmes d'inférence entre dans cette catégorie.Dans les deux cas, nous avons une fonction de coût qui dépend d'un grand nombre de paramètres à optimiser. Un choix assez simple, mais courant, est l'utilisation d'algorithmes locaux basés sur le gradient, qui descendent dans la fonction de coût en essayant d'identifier les bonnes solutions.Si la fonction de coût est convexe alors il suffit de vérifier des simple conditions sur la vitesse de descente pour trouver la bonne solution. Cependant, souvent, nous n'avons pas de coûts convexes. Comprendre ce qui se passe dans la dynamique de ces problèmes non convexe en haute dimension est l'objectif principal de ce projet.Dans la thèse, on considéra les problèmes d'inférence bayésienne et d'apprentissage automatique en essayant de construire une théorie qui décrit comment la dynamique algorithmique évolue et quand elle est vouée à l’échec. Les modèles des problèmes d'apprentissage automatique et d'inférence sont intimement liés. Un autre lien intéressant et connu depuis longtemps est le lien entre les problèmes d'inférence et les systèmes désordonnés étudiés par les physiciens statistiques. Les techniques et les résultats développés dans ce dernier forment le véritable base de ce travail.Dans cette thèse, nous caractérisons les limites algorithmiques de la descente de gradient et la dynamique de Langevin. Nous analysons la structure du paysage et trouvons le résultat contre-intuitif qu'en général un nombre exponentiel de solutions fausses n’empêche pas la descente de gradient vanille initialisée au hasard vers la seule bonne solution. Enfin, nous construisons une théorie qui explique quantitativement et qualitativement le phénomène.