Apprentissage statistique par renforcement et méthodes de scoring

par Mastane Achab

Projet de thèse en Mathématiques aux interfaces

Sous la direction de Stephan Clemencon, Aurélien Garivier et de Anne Sabourin.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de Mathématiques Hadamard , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) et de S2A - Statistique et Apprentissage (equipe de recherche) depuis le 03-09-2016 .


  • Résumé

    Cette thèse se divise en deux parties : la première porte sur les méthodes de scoring et la seconde sur l'apprentissage par renforcement. Le scoring consiste à ordonner un ensemble d'éléments en attribuant, par le biais d'une fonction de score, un score scalaire à chaque élément de cet ensemble. La question qui se pose est la suivante : comment choisir cette fonction de score à partir de données étiquetées ? Les problèmes correspondant aux cas où les données sont étiquetées de façon binaire ou catégorielle, respectivement connus sous les noms de 'bipartite ranking' et 'multipartite ranking', ont été largement étudié, aussi bien théoriquement que d'un point de vue algorithmique. En nous inspirant de ces travaux, nous étendons ces méthodes au cas d'étiquettes prenant des valeurs continues. Dans un second temps, nous nous intéressons au problème de scoring appliqué au cas plus spécifique où le nombre d'objets à ordonner est fini et que les observations sont des classements complets ou partiels. Ainsi, l'approche naturelle dite 'd'agrégation de classements' consiste à calculer une permutation médiane minimisant la somme des distances à tous les classements observés. En d'autres terms, cela revient à résumer une distribution sur le groupe symétrique à une seule permutation. Nous généralisons ce problème à celui de la réduction de dimension dans lequel la distribution sur les permutations est décrite par une distribution plus simple (i.e. respectant un partitionnement ordonné des objets) sans être nécessairement réduite à un point. De la même façon que pour l'agrégation de classements, nous montrons que l'observation de duels, i.e. des comparaisons entre deux objets, suffit pour résoudre ce problème en l'absence de classements complets, dont l'observation est coûteuse lorsque le nombre d'objets est grand. En apprentissage par renforcement, on cherche à apprendre par l’expérience, de façon séquentielle en se fondant sur les échecs et les succès constatés, une stratégie de décision optimale dans un univers incertain, chaque action conduisant à une récompense aléatoire. Cette classe de problèmes recouvre de très nombreuses applications (tests cliniques, apprentissage sensori-moteur, robotique mobile autonome, gestion de portefeuille, etc.) pour lesquelles il importe de réaliser un compromis optimal entre l’exploration des possibles et l’exploitation des informations disponibles jusqu’à présent. Une stratégie de décision/action est généralement évaluée en comparant la moyenne des récompenses à celle des récompenses produite par une stratégie oracle optimale. De nombreux algorithmes d’apprentissage par renforcement ont été introduits dans la littérature ces dernières décennies, pour lesquels une analyse du regret a été menée. A travers le problème de ce type le plus simple à analyser, le problème dit des 'bandits manchots', on étend plusieurs méthodes et leur analyse à la situation où l'on ne cherche pas seulement la source dont la moyenne est la plus grande, mais toutes les sources dont les moyennes dépassent des valeurs seuils données, de sorte à maximiser le profit engendré par ces stratégies. Dans un dernier temps, nous considérons le problème d'apprentissage de distributions par renforcement, dans lequel on cherche à apprendre la distribution entière de la somme des récompenses futures produites par une stratégie donnée, au lieu de simplement évaluer la moyenne de cette distribution. Nous proposons un nouveau schéma d'approximation en ligne de ces distributions, analysons ses propriétés et montrons qu'il généralise l'approche classique d'apprentissage par renforcement tout en étant plus performant en pratique.

  • Titre traduit

    Reinforcement Learning and Scoring Methods


  • Résumé

    This thesis divides into two parts: the first one is on scoring methods and the second on reinforcement learning. The scoring task consists in ordering a set of objects by giving, by means of a scoring function, a scalar score to each element of the set. As a statistical learning problem, it boils down to answering the following question: how to choose an almost optimal scoring function given labeled data? The problems of bipartite and multipartite ranking, for binary and categorical labels, have been extensively studied from both theoretical and algorithmic points of view. Based on this previous work, we extend these methods to the case of labels valued in a continuous range. Then, we focus on the more specific case of scoring a finite set of elements based on complete and/or incomplete ranking data. We build on existing techniques for the ranking aggregation problem, where a median ranking is computed by minimizing the sum of the distances to all observed rankings. In other words, a whole distribution on the symmetric group is summarized by a unique permutation. We generalize this approach to the dimensionality reduction problem where the original distribution on the permutations is described by a simpler distribution (i.e. satisfying bucket order constraints) not necessarily reduced to a single ranking. As for ranking aggregation, we show that this dimensionality reduction problem can be solved by only observing pairwise comparisons instead of full rankings, which are very costly when the number of objects is large. In reinforcement learning, one attempts to learn through experience an optimal decision strategy in a probabilistic setting, in a sequential manner, based on successive failures and successes of each action. This type of problems covers a wide variety of applications (clinical tests, sensory-motor learning, autonome mobile robotics, portfolio management, etc.), where the goal is to perfom an optimal trade-off between exploration of the space of possibilities and exploitation of the current set of past observations. A decision/action strategy is generally evaluated through the comparison between the mean reward to that of an oracle optimal strategy. Many reinforcement learning algorithms have been introduced in the literature these last decades, for which a regret analysis has been carried out. Through the problem termed 'multi-armed bandit', we extend some of these methods and the analysis of their performance to the task of identifying all sources whose expected values are above given thresholds, in order to maximize the total profit produced by these strategies. Finally, we consider the distributional reinforcement learning problem where, where we learn the whole distribution of the discounted sum of future rewards for a given strategy, instead of simply estimating the expectation of this distribution. We propose a novel distributional approximation procedure generalizing the classical reinforcement learning approach and we provide both theoretical analysis and empirical evidence of its efficiency.