Scalabilité des méthodes de réduction de variance pour la descente de gradient

par Nidham Gazagnadou

Projet de thèse en Mathématiques appliquées

Sous la direction de Joseph Salmon et de Robert Gower.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) , S2A - Statistique et Apprentissage (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-11-2018 .


  • Résumé

    Les problèmes d'optimisation à grande échelle en Apprentissage Statistique, notamment les problèmes de minimisation du risque empirique, ont fait pression sur la communauté de l'optimisation pour la conception de nouvelles méthodes incrémentales et pouvant passer à l'échelle. Cette pression a d'abord entrainé le retour d'une méthode datant aux années 50 : l'algorithme du gradient stochastique (Robbins et Monro, 1951). Ce dernier et ses variantes sont maintenant très utilisés lors de l'entrainement de réseaux de neurones profonds, de machine à vecteurs de support etc. Bien que pouvant passer à l'échelle, cette méthode nécessite de régler une séquence de pas décroissants pour converger. De plus, certains domaines d'application et certains problèmes demandent de calibrer différentes séquences de pas afin que cette méthode soit efficace. Ceci implique que l'utilisateur doit passer du temps à calibrer cette séquence, qui entraine d'ailleurs un résultat souvent sous-optimal. Ce problème, parmi d'autres, a amené le développement d'algorithmes de gradient stochastique à variance réduite, qui ne nécessitent pas une suite de pas décroissants mais un pas constant pour assurer une convergence linéaire. En particulier, les méthodes SAG (Le Roux, Schmidt et Bach, 2012) et SAGA (Defazio, Bach et Lacoste-Julien, 2014) ne nécessitent la calibration d'aucun paramètre de pas puisque l'étude théorique de leur convergence donne un pas aisément calculable, facilitant ainsi la tâche de l'utilisateur. Ce doctorat va étendre le développement de méthodes stochastiques à variance réduite. Le point de départ sera la monographie (Gower, Richtarik et Bach, 2018) où une nouvelle famille de méthodes stochastiques à variance réduite nommée JacSketch est proposée, testée et analysée. Les principaux objectifs du candidat sont de 1) développer des variantes à mémoire limitée passant mieux à l'échelle et pouvant être appliquées à l'apprentissage de réseaux de neurones profonds, en s'inspirant de la méthode BFGS à mémoire limitée (Nocedal, 1980) 2) développer des variantes à mémoire limitée basées sur les méthodes de quasi-Newton à mémoire limitée (Gill et Leonard, 2001) et sur l'acquisition comprimée grâce au sketching (Gilbert, Strauss, Tropp et Vershynin, 2007) 3) développer de nouvelles méthodes d'échantillonnage préférentiel pour les méthodes JacSketch basées sur la nouvelle analyse présentée dans (Gower, Richtarik et Bach, 2018) 4) tirer profit d'outils modernes pour l'algèbre linéaire numérique à grande échelle, comme le sketching aléatoire (Gower, 2015), pour créer de nouvelles méthodes à variance réduite efficaces.

  • Titre traduit

    Scalable stochastic variance reduced gradient methods


  • Résumé

    Large scale optimization problems in Machine Learning, most notably the empirical risk minimization problem, has put pressure on the optimization community to design new highly scalable and incremental methods. This pressure has led to the revival of a rather old method from the 1950's, the stochastic gradient descent (SGD) method (Robbins and Monro, 1951). SGD and its variants are now widely used in training deep neural, support vector machines and more. Though highly scalable, for SGD to work well the user needs to determine a sequence of decreasing stepsizes for the method to converge. Furthermore, different problems and application fields require a different sequence of stepsizes to work efficiently. Which in turn means time has to be spent by the user tuning this stepsize sequence, and the resulting sequence is often suboptimal. This issue, among others, has lead to the development of stochastic variance reduced gradient methods, that do not require a decreasing sequence of stepsizes, instead, a constant stepsize suffices to guarantee a fast linear convergence. In particular the stochastic average gradient methods SAG (Le Roux, Schmidt and Bach, 2012) and SAGA (Defazio, Bach and Lacoste-Julien, 2014) require no tuning of the stepsize parameter whatsoever, since the convergence theory that supports these methods gives a practical and easily computed stepsize, much to the relief of the user. This PhD proposal will extend the development of stochastic variance reduced methods. The starting point will be the monograph (Gower, Richtarik and Bach, 2018) where in a new family of stochastic variance reduced methods named JacSketch are proposed, tested and analyzed. The PhD candidate main objectives for this work are 1) developing limited memory variants that can better scale and be applied to training deep neural, taking inspiration from the limited memory BFGS method (Nocedal, 1980) 2) develop reduced memory variants based on reduced memory quasi-Newton methods (Gill and Leonard, 2001) and compressed sensing through sketching (Gilbert, Strauss, Tropp and Vershynin, 2007) 3) develop new importance sampling methods for the JacSketch methods based on the new analysis developed in (Gower, Richtarik and Bach, 2018) 4) leverage modern tools for large scale numerical linear algebra, such as randomized sketching (Gower, 2015), to design completely new and efficient variance reduced methods.