Thèse soutenue

Méthodes d'optimisation basées sur le gradient naturel pour les réseaux de neurones profonds

FR  |  
EN
Auteur / Autrice : Abdoulaye Koroko
Direction : Quang Huy TranMounir Haddou
Type : Thèse de doctorat
Discipline(s) : Informatique mathématique
Date : Soutenance le 16/10/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : IFP Energies Nouvelles
référent : CentraleSupélec (2015-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Laurent Dumas
Examinateurs / Examinatrices : Hoai An Lê Thi, Aude Rondepierre, Grégoire Allaire, Aziz Belmiloudi
Rapporteurs / Rapporteuses : Hoai An Lê Thi, Aude Rondepierre

Résumé

FR  |  
EN

La méthode du gradient stochastique est la technologie actuellement prédominante pour effectuer la phase d'entraînement des réseaux de neurones. Par rapport à une descente classique, le calcul du vrai gradient comme une moyenne sur les données est remplacé par un élément aléatoire de la somme. En présence de données massives, cette approximation audacieuse permet de diminuer le nombre d'évaluations de gradients élémentaires et d'alléger le coût de chaque itération. Le prix à payer est l'apparition d'oscillations et la lenteur de convergence souvent excessive en nombre d'itérations. L'objectif de cette thèse est de concevoir une approche à la fois : (i) plus robuste, en faisant appel aux méthodes fondamentales qui ont fait leur preuve en optimisation classique, i.e., en dehors du cadre de l'apprentissage ; et (ii) plus rapide, en termes de vitesse convergence. Nous nous intéressons en particulier aux méthodes de second ordre, connues pour leur stabilité et leur rapidité de convergence. Pour éviter le goulot d'étranglement de ces méthodes, qui est le coût exorbitant d'une itération où intervient un système linéaire à matrice pleine, nous tentons d'améliorer une approximation récemment introduite sous le nom de Kronecker-Factorized Approximation of Curvature (KFAC) pour la matrice de Fisher, laquelle remplace la matrice hessienne dans ce contexte. Plus précisément, nos axes de travail sont : (i) construire de nouvelles factorisations de Kronecker fondées sur une justification mathématique plus rigoureuse que KFAC ; (ii) prendre en compte l'information issue des blocs hors diagonaux de la matrice de Fisher, qui représentent l'interaction entre les différentes couches ; (iii) généraliser KFAC à une architecture de réseau autre que celles pour lesquelles elle a été initialement développée.