Thèse en cours

Algorithmes Primaux-Duaux Optimaux

FR  |  
EN
Auteur / Autrice : Iyad Walwil
Direction : Olivier Fercoq
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/11/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de Traitement et Communication de l'Information
Equipe de recherche : S2A - Statistique et Apprentissage

Résumé

FR  |  
EN

L'optimisation des algorithmes d'optimisation est une préoccupation naturelle de la communauté. Le problème est le suivant : pour une classe de fonctions donnée, quel algorithme est le plus performant pour minimiser ces fonctions ? Classiquement, on essaie de borner le nombre d'itérations nécessaires pour obtenir une solution approchée en fonction de la précision souhaitée. Cela fournit une garantie (appelée borne supérieure) sur le pire cas possible parmi la classe. D'autre part, nous nous intéressons également au nombre minimum d'itérations nécessaires pour minimiser les fonctions les plus récalcitrantes de la classe. Ce nombre est appelé borne inférieure. Lorsque les bornes supérieure et inférieure sont égales (ou plus généralement du même ordre de grandeur), on dit que l'algorithme trouvé est optimal. Ce type de considération a été à la base de l'effort de recherche sur la méthode du gradient accéléré et sur la méthode des points intérieurs. Dans ce projet, nous nous intéressons particulièrement au problème d'optimisation d'une fonction convexe sous contraintes affines Ce problème se retrouve dans de nombreux domaines (apprentissage statistique, traitement du signal, optimisation de forme, recherche opérationnelle...) et correspond au prototype du problème nécessitant un fractionnement de l'opérateur. Les méthodes proximales, telles que le lagrangien augmenté inexact, le gradient hybride primal-dual et l'ADMM, sont couramment utilisées pour résoudre de tels problèmes car elles résolvent de grands problèmes en un temps raisonnable. Il a été montré que si l'on calcule la moyenne des itérations qu'elles produisent, ces méthodes atteignent le taux de convergence optimal O(1 / k) sur la classe de fonctions convexes f. Ceci est remarquable mais ne correspond pas nécessairement à l'expérience utilisateur. En pratique, on privilégiera plutôt l'itération finale à la moyenne des itérations et on observera une convergence linéaire, c'est-à-dire une décroissance exponentielle de la mesure d'optimalité. Cet écart entre la théorie et la pratique se produit parce que l'utilisateur n'essaie pas de résoudre le problème le plus difficile parmi les problèmes convexes sous contraintes affines. Pour obtenir des résultats plus fins, la classe de fonctions étudiées doit être restreinte. Par exemple, si le lagrangien est fortement convexe-concave, alors Chambolle et Pock ont proposé un algorithme primal-dual à convergence linéaire. De même, si f est quadratique, alors la méthode lagrangienne augmentée exacte converge linéairement. Ces hypothèses sont restrictives : par exemple, le lagrangien d'un problème d'optimisation contraint n'est jamais fortement convexe-concave. Néanmoins, la sous-régularité métrique du gradient généralisé du lagrangien suffit pour avoir la convergence linéaire. Cette hypothèse recouvre les deux cas précédemment cités. De plus, dans le cas où il n'y a pas de contrainte, cela équivaut à la propriété de borne d'erreur quadratique. Conjecture principale du projet: Commençons par décrire la situation dans le cas sans contrainte min_x f(x) avec f convexe, mieux compris. On dit que f satisfait la borne d'erreur quadratique, s'il existe µ > 0 tel que f(x) - min f > µ dist(x, argmin f)^2. Notons cette classe de fonctions F_µ. La méthode du gradient converge à la vitesse O((1 - µ)^k) sur Fµ et à la vitesse O(1 / k) sur F_0. Comme il s'agit du même algorithme quelle que soit la valeur de µ, la méthode du gradient est adaptative par rapport à ce paramètre. De plus, la méthode du gradient accéléré redémarré converge à la vitesse O(( 1- µ^0.5)^k), ce qui est optimal. La fréquence de redémarrage dépend de µ et pour µ=0, on obtient la méthode du gradient accéléré en O(1 / k^2), qui est également optimale. Au prix d'un terme logarithmique, on peut implémenter une méthode qui ajuste automatiquement la fréquence de redémarrage à µ et qui est en même temps optimale sur toutes les classes Fµ. Du côté de l'optimisation convexe sous contraintes affines, si l'on a la sous-régularité métrique de paramètre m > 0, ce qui signifie que le gradient G du lagrangien vérifie dist(0, G(z)) > m dist (z, G^{-1} (0)), le gradient hybride primal-dual (PDHG) converge à la vitesse O((1- m^2)^k). Si m = 0, on a une convergence en O(1 / k^0.5). Ici aussi, l'algorithme s'écrit de la même manière quelle que soit la valeur de m. Comme expliqué précédemment, dans le cas m = 0, la moyenne des itérations de PDHG donne un algorithme optimal pour m = 0 avec la complexité O(1 / k), mais détériore les performances lorsque m > 0. La conjecture que nous voudrions résoudre est basée sur une analogie avec le cas sans contrainte. 1. Il existe un algorithme A_m qui résout l'optimisation convexe avec contraintes à la vitesse O(1-m)^k sous l'hypothèse de sous-régularité métrique avec le paramètre m>0 du gradient généralisé du Lagrangien. 2. Cette vitesse est optimale pour cette classe de fonctions. 3. De plus, l'algorithme limite A_0 a la vitesse O(1/k) pour les fonctions convexes. La principale contribution est de remplacer m^2 par m dans le taux de convergence. Cela correspond à un changement de paradigme dans la vitesse de résolution du problème et donc à une avancée majeure dans le domaine.