Etudes de différents aspects de l'apprentissage par renforcement

par Ping Zhang

Thèse de doctorat en Contrôle des systèmes

Sous la direction de Stéphane Canu.

Soutenue en 1997

à Compiègne .


  • Résumé

    Dans cette thèse nous avons abordé trois aspects importants de l'apprentissage par renforcement, à savoir les différences temporelles (T D (Alpha) ), l'algorithme de Q-learning et le dilemme "exploration/exploitation". Sur chacun de ces aspects nous avons proposé des innovations qui permettent de mieux comprendre et par la même de mieux résoudre le problème d'apprentissage par renforcement. Le premier résultat de ce travail est une méthode permettant d'optimiser le choix des paramètres de l'algorithme de T D (Alpha). Nous présentons ensuite l'utilisation du principe de T D (Alpha) comme point de départ à l'élaboration de plusieurs solutions permettant de résoudre un problème réel : l'évaluation de l'aptitude d'une personne à tenir un poste de travail informatisé. Nous nous sommes ensuite intéressés à l'algorithme le plus utilisé en apprentissage par renforcement : le Q-learning. Un des inconvénients majeurs de Q-Iearning est la surestimation des Q-valeurs associées aux actions non-optimales. Afin de remédier à cet inconvénient, nous avons introduit la notion de confiance et avons proposé une nouvelle variante de Q-learning, SCIQ. Cet algorithme nous a permis de généraliser le Q-learning. SCIQ est "adaptatif" grâce à sa capacité évolutive de modification des Q-valeurs. De plus, cette alternative s'avère être robuste et peu gourmande en temps de calcul. Pour résoudre le dilemme exploration/exploitation, nous avons proposé d'introduire la notion d'entropie en tant que mesure d'information sur les états. Nous avons présenté deux méthodes permettant d'estimer une approximation de l'entropie et deux types de techniques pour réaliser l'exploration utilisant ces estimations. Soulignons que le fait d'utiliser une approximation et non l'entropie elle-même permet de définir un algorithme efficace ne nécessitant pas l'introduction de compteur ou de toute autre structure complexe.

  • Titre traduit

    Research on different aspects of the reinforcement learning


  • Résumé

    This dissertation deals with the research on three important aspects of the reinforcement learning : the temporal differences (TD(). ), the Q-learning and the exploration/ exploitation dilemma. We propose algorithms and techniques based on new concepts that allow a better understanding, and ultimately, the solution to the problem of reinforcement learning. The first part of this work deals with a method that optimizes the choice of parameter of T D(). . ) and then solves a real problem of a person's ability to evaluate utilizing the different methods based on the principle of T D(>,). In the second part, we introduce the notion "confidence" and propose a new version of Q-learning, SCIQ, which generalizes and improves the Q-learning. We point out that this algorithm can overcome the over-estimation problem of Q-values associated with non-optimal actions. Contrary to other versions of Q-learning, our algorithm is adaptive thanks to its evolving capacity to modify the Q-values. Again, it is robust and faster than the Q-learning. In the last part, in order to solve the exploration/exploitation dilemma, the notion "entropy" is introduced as the measure of information on the system state. We present two methods allowing to estimate the entropy approximation and two types of tech¬niques for exploration by means of these estimations. It is noted that aside from using entropy itself by using the entropy approximation we can define the efficient algorithm without the counter and extra structure.

Autre version

Cette thèse a donné lieu à une publication en 1997 par Université de Technologie de Compiègne à Compiègne

Etude de différents aspects de l'apprentissage par renforcement


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (137 + A-58)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 127-137

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Technologie de Compiègne. Service Commun de la Documentation.
  • Disponible pour le PEB
  • Cote : 1997 ZHA 993
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 1997 par Université de Technologie de Compiègne à Compiègne

Informations

  • Sous le titre : Etude de différents aspects de l'apprentissage par renforcement
  • Détails : 1 vol. (137 + A-58.)
  • Annexes : Bibliogr. p. 127-137
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.