Apprentissage par renforcement en horizon fini : Application à la génération de règles pour la conduite de culture

par Seydina Moussa Ndiaye

Thèse de doctorat en Sciences biologiques et fondamentales appliquées. Psychologie

Sous la direction de Roger Martin-Clouaire.

Soutenue en 1999

à Toulouse 3 .


  • Résumé

    Le point essentiel de la première partie de la thèse a été d'adapter au cadre de l'horizon fini les méthodes d'apprentissage par renforcement (AR) existantes. Nous avons considéré essentiellement deux d'entre elles basées sur le principe des différences temporelles, le Q-Learning et le R-Learning, qui différent sur la fonction d'évaluation. Toutes les études faites dans ce domaine concernent des problèmes en horizon infini. Les résultats obtenus nous ont permis d'établir un lien entre le critère 1-pondéré (Q-Learning) et le critère moyen (R-Learning) en horizon fini. La réécriture du R-Learning en horizon fini montre une équivalence entre le critère moyen et le critère fini. La méthode de l'ODE (ordinary differential equation) a été utilisée pour analyser la vitesse de convergence de ces algorithmes en horizon fini. Nous avons montré que le R-Learning pouvait être vu comme une version à gain matriciel du Q-Learning. Le second problème a été la représentation de l'espace de résolution en AR. Généralement les algorithmes d'AR sont appliqués sur des espaces discrets alors que dans notre problème de conduite de culture nous avons à faire avec des espaces mixtes (discrets et continus). Une solution est d'utiliser la méthode de représentation par CMAC (cerebellar model articulation controller) communément utilisée en AR. Cependant, bien que donnant des résultats satisfaisants, ce mode de représentation n'est pas adéquat pour notre application parce qu'il ne fournit pas une caractérisation intelligible pour l'utilisateur agronome de la notion de stratégie. Une représentation par un ensemble de règles de décision de la forme si alors est préférable. La solution envisagée est d'apprendre directement des stratégies de conduite de culture sous forme de règles de décision. Pour cela, des techniques d'algorithmes génétiques (AG) sont utilisées pour modifier et apprendre la structure optimale des règles de décision.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xi-263 p.)
  • Annexes : Bibliogr. p. 201-216

Où se trouve cette thèse ?

  • Bibliothèque : Centre de recherche en informatique de Lens. Bibliothèque.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : THE 99 NDI
  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 1999TOU30010
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.