Etude de l'émergence de facultés d'apprentissage fiables et prédictibles d'actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes

par Frédéric Davesne

Thèse de doctorat en Génie informatique et robotique

Sous la direction de Claude Barret.

Soutenue en 2002

à Evry-Val d'Essonne .


  • Résumé

    L'objectif à long terme de notre travail est la mise au point de techniques d'apprentissage fiables et prédictibles d'actions réflexes, dans le cadre de la robotique mobile. Ce document constitue un départ à ce projet. Dans un premier temps, nous donnons des arguments défendant l'idée que les méthodes d'apprentissage classiques ne peuvent pas, intrinsèquement, répondre à nos exigences de fiabilité et de prédictibilité. Nous pensons que la clé du problème se situe dans la manière dont la communication entre le système apprenant et son environnement est modélisée. Nous illustrons nos propos grâce à un exemple d'apprentissage par renforcement. Nous présentons une démarche formalisée dans laquelle la communication est une interaction, au sens physique du terme. Le système est soumis à deux forces : la réaction du système est due à la fois à l'action de l'environnement et au maintien de contraintes internes. L'apprentissage devient une propriété émergente d'une suite de réactions du système, dans des cas d'interactions favorables. L'ensemble des évolutions possibles du système est déduit par le calcul, en se basant uniquement (sans autre paramètre) sur la connaissance de l'interaction. Nous appliquons notre démarche à deux sous-systèmes interconnectés, dont l'objectif global est l'apprentissage d'actions réflexes. Nous prouvons que le premier possède comme propriété émergente des facultés d'apprentissage par renforcement et d'apprentissage latent fiables et prédictibles. Le deuxième, qui est ébauché, transforme un signal en une information perceptive. Il fonctionne par sélection d'hypothèses d'évolution du signal au cours du temps à partir d'une mémoire. Des contraintes internes à la mémoire déterminent les ensembles valides d'informations perceptives. Nous montrons, dans un cas simple, que ces contraintes mènent à un équivalent duthéorème de Shannon sur l'échantillonnage.


  • Résumé

    The long term goal of our work is the settlement of reliable and predictable learning techniques of basic behaviors in the robotics framework. This document is a starting point for this project. As a first step, we argue that classical learning methods do not fulfill our request about reliability and predictibility. We think the key point of this issue is the way the communication between the learning system and its environment is modelled. We illustrate this point of view by giving a reinforcement learning example. We introduce a formalized framework in which communication is seen an an interaction, as in physics. Two kinds of forces are applied to the system : the reaction of the system is deduced, knowing the action of its environment an the fulfilment of a set of internal constraints. Learning ability becomes an emerging property of the system which is the result of several reactions over time. All the possible evolutions of the system are deduced from the prior knowedge about the interaction (with no need of other parameters).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : xxx-202 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. en fin de chapitres

Où se trouve cette thèse\u00a0?