Thèse soutenue

Contribution à la résolution des processus de décision markoviens décentralisés

FR  |  
EN
Auteur / Autrice : Daniel Szer
Direction : François Charpillet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Nancy 1
Partenaire(s) de recherche : autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Nous abordons dans cette thèse la résolution optimale des processus de décision markoviens décentralisés (DEC-POMDPs). Le modèle DEC-POMDP constitue un formalisme théorique pour la description de problèmes de prise de décision distribuée et coopérative, et cette thèse est l'une des premières à proposer des algorithmes exactes de recherche de politiques optimales. Les avancées qui en découlent nous permettent en particulier de proposer un cadre théorique pour la construction des systèmes multi-agents. Nous distinguons deux familles d'approches pour la résolution des DEC-POMDPs. Lorsqu'un modèle a priori est disponible, une solution optimale peut-être obtenue de manière centralisée et hors ligne par un processus de planification. Nous proposons dans ce cadre un nouvel algorithme de programmation dynamique à base de points, synthèse de la programmation dynamique multi-agent et de la programmation dynamique à base de points mono-agent. Il présente l'avantage de concentrer l'effort de calcul dans les régions pertinentes de l'espace des politiques. Nous introduisons aussi et pour la première fois un algorithme de recherche heuristique pour la planification optimale de comportements décentralisés, basé sur la recherche A* du meilleur d'abord. Lorsque le modèle n'est pas connu, la politique globale peut être obtenue par un processus d'essai erreur au sein de chaque agent. Il s'agit alors de l'apprentissage, et plus particulièrement de l'apprentissage par renforcement. Nous analysons les contraintes supplémentaires dans le cas de l'apprentissage multi-agent, et nous introduisons un nouvel algorithme d'apprentissage par renforcement multi-agent par notifications réciproques.