Méthodes adaptatives pour les bandits à continuum de bras

par Hedi Hadiji

Projet de thèse en Mathématiques appliquées

Sous la direction de Gilles Stoltz et de Pascal Massart.

Thèses en préparation à Paris Saclay , dans le cadre de Mathématiques Hadamard , en partenariat avec LMO - Laboratoire de Mathématiques d'Orsay (laboratoire) , Probabilités et statistiques (LMO) (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 31-08-2017 .


  • Résumé

    Ce projet s'inscrit dans le domaine de l'étude des problèmes de bandits à plusieurs bras. Il s'agit d'un domaine actif, riche en applications et des avancées théoriques auraient rapidement des conséquence pratiques importantes. A titre d'exemple, on peut citer les applications aux designs d'essais cliniques, au placement de publicités, à l'optimisation sur réseaux, et à l'intelligence artificielle dans les jeux. Pour un aperçu de la quantité impressionnante de généralisations et d'algorithmes, on pourra consulter Bubeck et Cesa-Bianchi (2012) et Burtini et al. (2015). Nous nous intéressons à une généralisation en particulier : les bandits à continuum de bras. Il s'agit d'une généralisation naturelle lorsque le nombre de choix de l'agent est énorme. Les techniques développées pour traiter ces problèmes partagent aujourd'hui un défaut : elles nécessitent la connaissance de paramètres inconnus du problème pour se comporter de façon optimale. L'objectif de la thèse est de définir un cadre dans lequel on pourra développer de nouveaux algorithmes, dits adaptatifs, et les analyser. Le point de départ est l'article de Bubeck et al. (2011b), dans lequel un premier pas est fait.

  • Titre traduit

    Adaptive methods for continuum-armed bandits


  • Résumé

    This project is part of the study of the problems of multi-armed bandits. This is an active field, rich in applications and theoretical advances would quickly have important practical consequences. Examples include applications to clinical trial designs, placement of advertisements, network optimization, and artificial intelligence in games. For an overview of the impressive number of generalizations and algorithms, see Bubeck and Cesa-Bianchi (2012) and Burtini et al. (2015). We are interested in a generalization in particular: bandits with continuum of arms. This is a natural generalization when the number of choices of the agent is enormous. The techniques developed to deal with these problems now share a defect: they require knowledge of parameters unknown to the problem to behave in an optimal way. The aim of the thesis is to define a framework in which new algorithms, called adaptive algorithms, can be developed and analyzed. The starting point is the article by Bubeck et al. (2011b), wherein a first step is made.