Stratégies de descente miroir pour la minimisation du regret et l'approchabilité

par Joon Kwon

Thèse de doctorat en Mathématiques

Sous la direction de Rida Laraki et de Sylvain Sorin.

Soutenue le 18-10-2016

à Paris 6 , dans le cadre de École doctorale de Sciences mathématiques de Paris Centre (Paris) , en partenariat avec Institut de Mathématiques de Jussieu - Paris Rive Gauche (laboratoire) .

Le jury était composé de Gérard Biau, Eric Moulines, Vianney Perchet, Gilles Stoltz.


  • Résumé

    On présente dans le Chapitre I le problème d'online linear optimization, et on étudie les stratégies de descente miroir. Le Chapitre II se concentre sur le cas où le joueur dispose d'un ensemble fini d'actions. Le Chapitre III établit que les stratégies FTPL appartiennent à la famille de descente miroir. On construit au Chapitre IV des stratégies de descente miroir pour l'approchabilité de Blackwell. Celles-ci sont ensuite appliquées à construction de stratégies optimales pour le problème online combinatorial optimization et la minimisation du regret interne/swap. Le Chapitre V porte sur la minimisation du regret avec l'hypothèse supplémentaire que les vecteurs de paiement possèdent au plus $s$ composantes non-nulles. On met en évidence une différence fondamentale entre les gains et les pertes en établissant des bornes optimales sur le regret d'ordre différents dans chacun de ces deux cas. Le Chapitre VI porte sur l'approchabilité de Blackwell avec observations partielles. On établit que les vitesses de convergence optimales sont $O(T^{-1/2})$ pour des signaux dont les lois ne dépendent pas de l'action du joueur, et $O(T^{-1/3})$ dans le cas général. Le Chapitre VII définit les stratégies de descente miroir en temps continu. On établit pour ces derniers une propriété de non-regret. On effectue ensuite une comparaison entre le temps continu et le temps discret. Enfin, le Chapitre VIII établit une borne universelle sur les variations des fonctions convexes bornées. On obtient en corollaire que toute fonction convexe bornée est lipschitzienne par rapport à la métrique de Hilbert.

  • Titre traduit

    Mirror descent strategies for regret minimization and approachability


  • Résumé

    In Chapter I, we present the online linear optimization problem and study Mirror Descent strategies. Chapter II focuses on the case where the Decision Maker has a finite set of actions. We establish in Chapter III that FTPL strategies belong to the Mirror Descent family. In Chapter IV, we construct Mirror Descent strategies for Blackwell's approachability. They are then applied to the construction of optimal strategies for online combinatorial optimization and internal/swap regret minimization. Chapter V studies the regret minimization problem with the additional assumption that the payoff vectors have at most $s$ nonzero components. We show that gains and losses are fundamentally different by deriving optimal regret bounds of different orders for those two cases. Chapter VI studies Blackwell's approachability with partial monitoring. We establish that optimal convergence rates are $O(T^{-1/2})$ in the case of outcome-dependent signals, and $O(T^{-1/3})$ in the general case. Chapter VII defines Mirror Descent strategies in continuous-time for which we establish a no-regret property. A comparison between discrete and continuous-time is then conducted. Chapter VIII establish a universal bound on the variations of bounded convex functions. As a byproduct, we obtain that every bounded convex function is Lipschitz continuous with respect to the Hilbert metric.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.