Thèse soutenue

Jeux répétés à somme nulle : algorithmes accélérés et meilleure approximation tropicale

FR  |  
EN
Auteur / Autrice : Omar Saadi
Direction : Stéphane GaubertMarianne Akian
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 17/12/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne)
Jury : Président / Présidente : Omid Amini
Examinateurs / Examinatrices : Stéphane Gaubert, Marianne Akian, William M. McEneaney, Vineet Goyal, Joséphine Yu, Petros Maragos, Zheng Qu
Rapporteurs / Rapporteuses : William M. McEneaney, Vineet Goyal

Résumé

FR  |  
EN

Dans cette thèse, nous développons des algorithmes accélérés pour les processus de décision Markoviens (MDP) et plus généralement pour les jeux stochastiques à somme nulle (SG). Nous abordons également les problèmes de meilleure approximation qui se posent en géométrie tropicale.La programmation dynamique est l'une des principales approches utilisées pour résoudre les problèmes MDP et SG. Elle permet de transformer un jeu en un problème de point fixe faisant intervenir un opérateur appelé opérateur de Shapley (ou opérateur de Bellman dans le cas de MDP). L'itération sur les valeurs (VI) et l'itération sur les politiques (PI) sont les deux principaux algorithmes permettant de résoudre ces problèmes de point fixe. Cependant, dans le cas d'instances à grande échelle, ou lorsque l'on veut résoudre un problème à paiement moyen (où il n'y a pas de facteur d'escompte pour les paiements reçus dans le futur), les méthodes classiques deviennent lentes.Dans la première partie de cette thèse, nous développons deux raffinements des algorithmes classiques d'itération sur les valeurs ou sur les politiques. Nous proposons d'abord une version accélérée de l'itération sur les valeurs (AVI) permettant de résoudre des problèmes de point fixe affines avec des matrices non auto-adjointes, ainsi qu'une version accélérée de l'itération sur les politiques (API) pour MDP, basée sur AVI. Cette accélération étend l'algorithme de gradient accéléré de Nesterov à une classe de problèmes de point fixe qui ne peuvent pas être interprétés en termes de programmation convexe. Nous caractérisons les spectres des matrices pour lesquelles cet algorithme converge avec un taux de convergence traduisant une accélération. Nous introduisons également un algorithme accéléré de degré d, et montrons qu'il donne un taux de convergence multi-accéléré sous des conditions plus exigeantes sur le spectre des matrices. Une autre contribution est une version déflatée de l'itération sur les valeurs (DVI) pour résoudre la version à paiement moyen des jeux stochastiques. Cette méthode permet de transformer un problème à paiement moyen en un problème escompté sous l'hypothèse d'existence d'un état distingué accessible depuis tous les autres états et sous toutes les politiques. En combinant cette méthode de déflation avec des techniques de réduction de la variance, nous obtenons un algorithme sous-linéaire résolvant les jeux stochastiques à paiement moyen.Dans la deuxième partie de cette thèse, nous étudions différents problèmes de meilleure approximation tropicale. Nous résolvons d'abord un problème de régression linéaire tropicale consistant à trouver la meilleure approximation d'un ensemble de points par un hyperplan tropical. Nous montrons que la valeur de ce problème de régression coïncide avec le rayon maximal d'une boule de Hilbert incluse dans un polyèdre tropical, et que ce problème est équivalent en temps polynomial aux jeux à paiement moyen. Nous appliquons ces résultats à un problème inverse de la théorie des enchères. Nous étudions également un analogue tropical de l'approximation de petit rang pour les matrices. Ceci est motivé par les méthodes approchées en programmation dynamique, dans lesquelles la fonction valeur est approximée par un supremum de fonctions élémentaires. Nous établissons des propriétés générales de l'approximation tropicale de petit rang et identifions des classes particulières de problèmes d'approximation de petit rang qui peuvent être résolus en temps polynomial. En particulier, nous montrons que la meilleure approximation matricielle tropicale de rang un équivaut à trouver le rayon minimal d'une boule de Hilbert contenant un polyèdre tropical.