Modèles et solutions de problèmes d'allocation de ressources stratégiques : équilibre approximatif et apprentissage en ligne dans les jeux de Blotto
Auteur / Autrice : | Dong Quan Vu |
Direction : | Patrick Loiseau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 25/06/2020 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Christoph Dürr |
Examinateurs / Examinatrices : Johanne Cohen, Nicolo Cesa-Bianchi, Rida Laraki, Alonso Silva | |
Rapporteurs / Rapporteuses : Vianney Perchet, Jason R. Marden |
Mots clés
Mots clés contrôlés
Résumé
Les problèmes d'allocation des ressources sont définis comme les situations concernant les décisions sur la distribution d’un budget limité afin d’optimiser un objectif. Beaucoup d'entre eux impliquent des interactions entre des décideurs compétitifs ; ils peuvent être bien capturés par des modèles de théorie des jeux. Dans cette thèse, nous choisissons d'étudier les jeux d'allocation de ressources. Nous nous concentrons principalement sur le jeu de Colonel Blotto (CB). Dans le jeu CB, deux joueurs compétitifs, chacun ayant un budget fixe, distribuent simultanément leurs ressources vers n champs de bataille. Chaque joueur évalue chaque champ de bataille avec une certaine valeur. Dans chaque champ de bataille, le joueur qui a l'allocation la plus élevée gagne la valeur correspondante tandis que l'autre obtient zéro. Le gain de chaque joueur est à ses gains cumulés sur tous les champs de bataille. Tout d'abord, nous modélisons plusieurs variantes et extensions du jeu CB comme jeux d'informations complètes à un coup. Notre première contribution est une classe d'équilibres approximatifs dans ces jeux et nous prouvons que l'erreur d'approximation est bien contrôlée. Deuxièmement, nous modélisons les jeux d'allocation de ressources avec des structures combinatoires comme des problèmes d'apprentissage en ligne pour étudier des situations impliquant des jeux séquentiels et des informations incomplètes. Nous établissons une connexion entre ces jeux et les problèmes de chemin le plus court en ligne (OSP). Notre deuxième contribution est un ensemble de nouveaux algorithmes d’OSP sous plusieurs paramètres de feedback qui améliorent des garanties de regret et du temps d'exécution.