Thèse soutenue

Apprentissage de routines pour la prise de décision séquentielle
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Sandra Castellanos-Paez
Direction : Sylvie PestyDamien Pellier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/10/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Equipe de recherche : Modélisation d'agents autonomes en univers multi-agents
Jury : Président / Présidente : Philippe Mathieu
Rapporteurs / Rapporteuses : René Mandiau, François Charpillet

Résumé

FR  |  
EN

Intuitivement, un système capable d'exploiter son expérience devrait être capable d'atteindre de meilleures performances. Une façon de tirer parti des expériences passées est d'apprendre des macros (c.-à-d. des routines), elle peuvent être ensuite utilisés pour améliorer la performance du processus de résolution de nouveaux problèmes. Le défi de la planification automatique est de développer des techniques de planification capables d'explorer efficacement l'espace de recherche qui croît exponentiellement. L'apprentissage de macros à partir de connaissances précédemment acquises s'avère bénéfique pour l'amélioration de la performance d'un planificateur.Cette thèse contribue principalement au domaine de la planification automatique, et plus spécifiquement à l’apprentissage de macros pour la planification classique. Nous nous sommes concentrés sur le développement d'un modèle d'apprentissage indépendant du domaine qui identifie des séquences d'actions (même non adjacentes) à partir de plans solutions connus. Ce dernier sélectionne les routines les plus utiles (c'est-à-dire les macros), grâce à une évaluation a priori, pour améliorer le domaine de planification.Tout d'abord, nous avons étudié la possibilité d'utiliser la fouille de motifs séquentiels pour extraire des séquences fréquentes d'actions à partir de plans de solutions connus, et le lien entre la fréquence d'une macro et son utilité. Nous avons découvert que la fréquence seule peut ne pas fournir une sélection cohérente de macro-actions utiles (c.-à-d. des séquences d'actions avec des objets constants).Ensuite, nous avons discuté du problème de l'apprentissage des macro-opérateurs (c'est-à-dire des séquences d'actions avec des objets variables) en utilisant des algorithmes classiques de fouille de motifs dans la planification. Malgré les efforts, nous nous sommes trouvés dans une impasse dans le processus de sélection car les structures de filtrage de la fouille de motifs ne sont pas adaptées à la planification.Finalement, nous avons proposé une nouvelle approche appelée METEOR, qui permet de trouver les séquences fréquentes d'opérateurs d'un ensemble de plans sans perte d'information sur leurs caractéristiques. Cette approche a été conçue pour l'extraction des macro-opérateurs à partir de plans solutions connus, et pour la sélection d'un ensemble optimal de macro-opérateurs maximisant le gain en nœuds. Il s'est avéré efficace pour extraire avec succès des macro-opérateurs de différentes longueurs pour quatre domaines de référence différents. De plus, grâce à la phase de sélection l'approche a montré un impact positif sur le temps de recherche sans réduire drastiquement la qualité des plans.