Accélération de Méthodes de Gradient Conditionnel

par Thomas Kerdreux

Thèse de doctorat en Mathématiques

Sous la direction de Alexandre d' Aspremont.

Thèses en préparation à l'Université Paris sciences et lettres , dans le cadre de École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de Ecole normale supérieure (établissement opérateur d'inscription) .


  • Résumé

    Les méthodes de Gradient Conditionnel, aussi dits algorithmes de Frank-Wolfe, sont des méthodes itératives du premier ordre utiles pour résoudre des problèmes d'optimisation sous-contraintes ayant de nombreuses applications en Apprentissage Statistique, Traitement du Signal, Apprentissage Profond, Géométrie Algorithmiques et bien d'autres encore. Chaque itération de ces algorithmes se base sur des oracles demandant de pouvoir minimiser une approximation linéaire de la fonction objective sous les contraintes. De nombreuses variantes de ces algorithmes existent qui cherchent à s'adapter au mieux aux structures particulières des problèmes d'optimisation sous-jacents. Ainsi de nombreuses directions de recherches restent ouvertes quant à l'analyse et la conception de nouveaux algorithmes de ce type, notamment pour l'apprentissage automatique. Notre première contribution est de proposer et d'analyser de nouveaux schémas algorithmiques qui s'adaptent à un certain type de contraintes d'Erreurs. L'analyse de ces schémas d'algorithmes révèle des taux de convergence qui s'interpolent entre les taux classiques sous-linéaires en $mathcal{O}(1/T)$ (ou $mathcal{O}(1/T^2)$) et les taux de convergence linéaires. Pour notre seconde contribution, nous proposons des versions des algorithmes de Frank-Wolfe où l'oracle de minimisation linéaire est résolu sur des sous-ensembles aléatoires de l'ensemble de contraintes initial tout en conservant, en espérance, les même taux de convergence asymptotiques. Bien que ces algorithmes ne conservent pas toutes les propriétés classiques des algorithmes de Frank-Wolfe, ce résultat étend les résultats de descente par blocs de coordonnées qui s'appliquent lorsque l'ensemble de contraintes est le produit cartésien d'ensembles plus simples. Notre troisième contribution vise à raffiner théoriquement les taux dans le Lemme de Carathéodory approximé de sorte à prendre en compte une mesure de la variance, dans une norme de Banach, des atomes formant l'enveloppe convexe en question. Ce résultat repose sur un extension des inégalités de concentration de type Serfling, c'est-à-dre de tirage avec replacement. Nous appliquons ce résultat pour des versions approximées du théorème de Shapley-Folkmann approximé. Enfin notre dernière contribution et sujet de recherche consiste à généraliser pour d'autres structures d'ensemble de contraintes, les résultats d'accélération de convergence des algorithmes de Frank-Wolfe connus, c'est-à-dire lorsque l'ensemble est un polytope ou un ensemble fortement convexe. Nous remarquons d'abord que les ensembles fortement convexes ne sont qu'un exemple particulier d'ensemble uniformément convexes et nous prouvons que ce type de structure donne aussi des taux de convergence accelérés pour l'algorithme de Frank-Wolfe classique, parfois meilleurs que le taux sous-linéaire en $mathcal{O}(1/T)$. Ensuite nous considérons une famille d'ensemble hybrides, c'est-à-dire des ensembles fortement convexes intersectés par un nombre fini de demi-espaces, et étudions des propriétés faciales de ces ensembles permettant de montrer des taux de convergence asymptotiques, locaux, mais accélérés.

  • Titre traduit

    Accelerating Conditional Gradient Methods


  • Résumé

    Conditional Gradient Algorithms, a.k.a. Frank-Wolfe algorithms, are iterative methods designed at solving constrained optimisation problems used in a variety of application in Machine Learning, Signal Processing, Deep Learning, Computational Geometry and many others. They only require oracles, the so-called Linear Minimization Oracle, minimising a linear approximation of the objective function over the constraints. This framework encompasses a growing series of algorithms that seek to adapt to particular structures or computational constraints of the optimisation problem. Many interesting open questions remain in the convergence analysis and designing of such algorithms which have pertaining applications across Machine Learning problems. Our first contribution is to provide and analyse new algorithms schemes relying on H"olderian Error Bounds type of assumptions. These provide the first interpolated convergence rate between the standard sublinear rates $mathcal{O}(1/T)$ (or $mathcal{O}(1/T^2)$) and linear convergence rates as well as it offers a different proof scheme which may be leveraged on in others scenarios. In our second contribution, we design Frank-Wolfe algorithms where the Linear Minimization Oracle is solved on random subsets of the constraints sets while retaining in expectation the asymptotical convergence rates. Although it does not retain all benefits of Frank-Wolfe algorithms, this extends block-coordinate type results which apply when the constraint set is the cartesian products of simpler sets. Our third contribution focuses on refining the bounds of Approximate Carathéodory Lemma, and we take into account the variance of the convex hull as measured with general Banach norms. This result relies on an extension of a Sterfling concentration inequality type to Banach spaces. We applied this version of Approximate Carathéodory to refine approximate versions of the Shapley-Folkmann theorem. Finally, our fourth contribution focus on generalising accelerated convergence results of Frank-Wolfe algorithms outside of the known cases, textit{i.e.} when the set is strongly convex or a polytope. We note that strongly convex sets are a particular instance in the family of uniformly convex sets. We hence first prove new better sublinear rates than $mathcal{O}(1/T)$ for some of these sets. Then we consider a simple family of textit{hybrid} sets, namely strongly-convex sets intersected with a finite number of half-spaces. We study some facial properties of these sets and show how this relates to local convergence rates. This analysis is, however, local and dependent on the initialisation.