méthodes d'extrapolation, au-delà de la convexité

par Mathieu Barre

Projet de thèse en Mathématiques

Sous la direction de Alexandre D'aspremont.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale Sciences mathématiques de Paris centre (Paris) , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement de préparation de la thèse) depuis le 01-09-2018 .


  • Résumé

    Ce projet est concentré sur la convergence de techniques d'accélération pour résoudre des problèmes d'optimisation génériques, avec des applications en optimisation convexe, optimisation stochastique et apprentissage profond. Cela revient à prendre un point de vue statistique sur les méthodes d'optimisation. Les algorithmes classiques ne gardent généralement que le dernier itéré comme meilleur estimation de l'optimum, cependant toute l'information contenue dans la suite convergente d'itérés est perdue. Les méthodes d'extrapolation en revanche, estiment l'optimum en utilisant une moyenne pondérée des derniers itérés produits par l'algorithme. Les poids dans cette moyenne sont obtenus en résolvant un système linéaire dont les solutions peuvent être mises à jour en ligne. Ce schéma d'accélération tourne en parallèle de l'algorithme principal et fournit de meilleurs estimés de l'optimum à la volée. Notre objectif est d'étudier des problèmes non-convexes et en particulier les réseaux de neurones profonds. Le principal avantage de cette approche dans ce cas est son coup d'implémentation. En effet son coup est minime en comparaison du coup de l'entraînement du réseau lui même et de plus, elle tourne en parallèle. Son utilisation ne peut donc jamais faire de mal. C'est aussi entièrement "plug & play" : une simple étape de post traitement qui ne requière aucune modification dans le code d'entraînement du réseau de neurones. Nous pensons que si nous pouvons mieux comprendre les performances de l'accélération dans le cas des problèmes non-convexes, cette méthode pourrait devenir une composante centrale dans l'entraînement des réseaux de neurones profonds.

  • Titre traduit

    Extrapolation Methods, Beyond Convexity


  • Résumé

    This project focuses on convergence acceleration techniques for solving generic optimization problems, with applications in convex optimization, stochastic optimization and deep learning. In essence, it takes a statistical view on optimization methods. Classical algorithms typically retain only the last iterate as their best estimate of the optimum, but throwing away all the information contained in the converging iterate sequence is highly wasteful from a statistical perspective. Extrapolation schemes on the other hand estimate the optimum of an optimization problem using a nonlinear average of the last iterates produced by an algorithm. The weights in this average are computed via a simple linear system, whose solution can be updated online. This acceleration scheme runs in parallel to the base algorithm, providing improved estimates of the solution on the fly, while the original optimization method is running. Our objective here is to tackle nonconvex problems and deep neural networks in particular. The key benefit of our approach in this case is its implementation cost. It has a completely minimal complexity compared to the training algorithm itself and runs in parallel, so using it never hurts. It also is entirely plug-and-play: a simple post-processing step which does not require any modification to existing neural network training code. We believe that if we can better understand acceleration performance on nonconvex problems, this method could become a core component of deep neural network training pipelines.