An ordinal generative model of Bayesian inference for human decision-making in continuous reward environments

par Gabriel Sulem

Thèse de doctorat en Neurosciences Cognitives

Sous la direction de Étienne Koechlin.

Soutenue le 14-09-2017

à Paris 6 , dans le cadre de École doctorale Cerveau, cognition, comportement (Paris) , en partenariat avec Laboratoire de Neurosciences cognitives / LNC (laboratoire) .

Le président du jury était Mathias Pessiglione.

Les rapporteurs étaient Peter Dayan, Pierre-Yves Oudeyer.

  • Titre traduit

    Modélisation de la prise de décision humaine dans le cas général d'environnements attribuant des récompenses non-binaires, par un algorithme ordinal d'inférence Bayésienne


  • Résumé

    Notre travail porte sur l'adaptation du comportement humain dans un environnement où les récompenses obtenues sont distribuées sur une échelle continue. Les travaux précédents se sont principalement intéressés aux cas de récompenses binaires (de type gagné/perdu) et ont montré qu'un algorithme d'apprentissage Bayésien pouvait rendre compte du comportement. Les algorithmes Bayésiens ne marchent pas dans un environnement continu à moins d'utiliser un modèle génératif (une série d'axiomes permettant de cadrer l'interprétation des observations). A l'inverse les algorithmes de renforcement s'y comportent bien car ils peuvent efficacement s'ajuster aux moyennes de distributions de récompense. Que fait donc l'humain ? Un modèle génératif usuel considère que les distributions de récompense associées à chaque action sont Gaussiennes. Un petit nombre d'observations permet de les caractériser en inférant leur moyenne et écart type. Nous proposons un modèle plus général postulant l'existence d'un classement stable de la valeur des différentes actions, ce qui permet d'imaginer la récompense fictive qui aurait été attribuée par les actions non choisies. Pour séparer ces deux modèles ainsi que le renforcement, nous avons construit 3 expériences comportementales dans lesquelles les distributions de récompenses sont bimodales et continues. Notre modèle rend compte du comportement des sujets à l’inverse du modèle Gaussien ou du renforcement. Notre modèle répond à des contraintes évolutionnistes car il s’adapte rapidement dans un grand nombre de contextes, y compris ceux ou les axiomes du modèle génératif ne sont pas respectés, pour déterminer à chaque fois quelles récompenses sont désirables.


  • Résumé

    Our thesis aims at understanding how human behavior adapts to an environment where rewards are continuous. Many works have studied environments with binary rewards (win/lose) and have shown that human behavior could be accounted for by Bayesian inference algorithms. A Bayesian algorithm works in a continuous environment provided that it is based on a “generative” model of the environment, which is a structural assumption about environmental contingencies. The issue we address in this thesis is to characterize which kind of generative model of continuous rewards characterizes human decision-making. One hypothesis is to consider that each action attributes rewards as noisy samples of the true action value, typically distributed as a Gaussian distribution. We propose instead a generative model using assumptions about the relationship between the values of the different actions available and the existence of a reliable ordering of action values. This structural assumption enables to simulate mentally counterfactual rewards and to learn simultaneously reward distributions associated with all actions. To validate our model, we ran three behavioral experiments on healthy subjects in a setting where actions’ reward distributions were continuous and changed across time. Our proposed model described correctly participants’ behavior in all three tasks, while other competitive models, including Gaussian failed. The proposed model extends the implementation of Bayesian algorithms and establishes which rewards are “good” and desirable according to the current context. It answers to evolutionarily constraints by adapting quickly, while performing correctly in many different settings.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.