Synthèse de plans conditionnels pour la décision dans l'incertain

par Sébastien Piedade

Projet de thèse en Informatique et Robotique

Sous la direction de Charles Lesire-cabaniols et de Guillaume Infantes.

Thèses en préparation à Toulouse, ISAE , dans le cadre de École doctorale Systèmes (Toulouse) , en partenariat avec Commande des Systèmes et Dynamique du Vol (laboratoire) depuis le 01-10-2017 .


  • Résumé

    Dans le cadre des problèmes de décision séquentielle dans lesquelles les décisions sont toutes réalisées avant le début de l'exécution, le problème de la validité des modèles de décision par rapport à la réalité de l'exécution se pose de façon récurrente. En fonction des hypothèses faites sur le système, principalement son modèle et son observabilité, on peut considérer les cas suivants, du plus restrictif au moins restrictif : • modèle parfait et déterministe : il suffit de donner la stratégie sous forme d'une séquence d'actions. On considère alors que l'exécution sera conforme à ce qui a été prédit ; • modèle parfait non-déterministe complètement observable : chaque action effectuée est conditionnée par l'observation de l'état courant, l'ensemble de la stratégie étant calculée hors ligne; on parle alors de politique; • modèle parfait non-déterministe partiellement observable : on se ramène au cas précédent en estimant au mieux l'état courant par une étape de filtrage qui exploite le plus possible le modèle (car il est supposé parfait); • modèle imparfait complètement observable : on considère que le modèle est parfait pour la construction de la stratégie. Puis, en ligne, les problèmes sont détectés, entraý̂nant une réparation de la stratégie (et éventuellement une correction du modèle) ; • modèle imparfait partiellement observable : il n'existe dans ce cas pas de méthode générale, uniquement des approches ad-hoc. Une première stratégie est construite en prenant en compte les aléas envisageables (retards, pannes). Puis, en fonction des observations réalisées sur le système, des réparations de la stratégie sont réalisées en ligne. De ce très rapide tour d'horizon, on peut tirer deux pistes de réflexions: dans le cadre le plus réaliste de modèles imparfaits partiellement observables, un cadre général fait défaut. D'autre part, les approches actuelles qui partent de cadres restrictifs et relâchent les hypothèses au fur et à mesure pour être plus réaliste séparent bien souvent les phases d'observation (ou suivi de situation) des phases de prise de décision. Plus précisément, elles s'appuient sur l'estimation la plus précise possible de l'état complet du système pour appliquer une stratégie pré-calculée adaptée à l'état estimé. Ce découpage peut induire un comportement sous-optimal, notamment lorsqu'il est possible de prendre une bonne décision à partir d'une estimation d'une partie de l'état du système. Par exemple, dans le cas de plans d'acquisitions d'images par un satellite, une bonne estimation de la présence de nuages sur une zone donnée peut être considérée suffisante pour la prise de décision d'une acquisition sur cette zone. Dans ce cas, connaý̂tre avec précision l'état complet du système (batterie, état des capteurs, etc.) est non-pertinent. On propose dans cette thèse de progresser en ce sens en approfondissant l'étude des plans conditionnels,dans lesquels les actions sont conditionnées par des observations partielles du système. Au lieu d'un contrôleur complet qui décide des actions en fonction de l'état complet du système, les plans conditionnels sont de la forme suivante : “action a 1 puis si condition c 1 alors b 1 sinon si c 2 alors b 2 sinon rien, puis action a 2” etc. On propose de se placer dans le cadre de synthèse de plans conditionnels hors ligne (avant l'exécution), en y incorporant des branchements en fonction des observations faites en ligne. Un des objectifs est de pouvoir construire des plans conditionnels combinant: des branchements dont la fonction est d'augmenter l'utilité globale des plans (par exemple, réalisation d'une tâche d'acquisition conditionnée par l'observation de paramètres influant sur le succès de la réalisation), et des branchements dont la fonction est d'augmenter la robustesse vis-à-vis des incertitudes du modèle utilisé pour planifier (par exemple, réalisation de certaines tâches conditionnée par les niveaux de ressource effectivement disponibles au moment de l'exécution).

  • Titre traduit

    Conditional plans synthesis for decision with uncertainty


  • Résumé

    Within the framework of sequential decision problems in wich the decisions are realized before the beginning of the execution, the problem of decision model validity with regard to the reality of the execution arises in a recurring way. According to the hypotheses made about the system, mainly its model and observability, we can consider the following cases, from most to least restrictive : - Perfect and determinist model : it's enough to give the strategy in the form of actions sequency. We then consider that the execution will be in conformity with what have been predicted. - Completely observable non-determinist perfect model : every action made is conditioned by the current state observation, the whole strategy being calculated offline ; we talk about politics. - Partially observable non-determinist perfect model : we come down to the previous case by estimating at best the current state by a filtering stage wich exploit as much as possible the model ( because it's supposed perfect) ; - Completely observable imperfect model : we consider that the model is perfect for the strategy construction. Then, on-line, problems are detected, leading to a strategy repair ( and possibly a model correction) ; - Partially observable imperfect model : in this case, there is no general method, only ad-hoc approaches. A first strategy is build taking into account the possible hazards (delays, fault). Then, according to the observations realized on the system, strategy repairs are realized online. Two lines of reflection can be drawn from this short overview : In the most realistic framework of partially observable imperfect models, a general framework is lacking. On the other hand, the current approaches wich are based on restrictive frameworks and relax hypotheses as one goes along to be more realistic often separate observation phases from decision-making phases. More precisely, they lean on the most precise possible estimation of the complete state of the system to apply a pre-calculated strategy adapted to the estimated state. This cut can induce a sub-optimal behavior, in particular when it is possible to make a good decision from an estimation of a part of the state of the system. For example, in the case of acquisition plans of images by a satellite, a good estimation of the presence of clouds on a given zone can be considered sufficient dor the decision-making of an acquisition on this zone. In this case, knowing exactly the complete state of the system (battery, sensors state, ect.) is non-relevant. We suggest in this thesis to progress in this way by investigating the study of conditional plans, in which actions are conditioned by partial observations of the system. Instead of a complete controller which decides on actions according to the complete state of the system, conditional plans are written in the following form : « action a1 then if condition c1 then b1 else if c2 then b2 else nothing, then action a2 » etc. We suggest taking place within the framework of offline conditional plans synthesis ( before the execution), by incorporating connections according to the observations made online. One of the objectives is to be able to build conditional plans combining : connections which the function is to increase plans global utility (for example, realization of an acquisition task conditioned by the observation of parameters influencing the success of the realization) , and connections which the function is to increase the robustness towards model uncertainties used to plan (for example, realization of certain tasks conditioned by the actually available levels of ressource at execution time).