Thèse soutenue

Mécanismes computationnels de l'apprentissage par renforcement dans les états sain et pathologique

FR  |  
EN
Auteur / Autrice : Sophie Bavard
Direction : Stefano Palminteri
Type : Thèse de doctorat
Discipline(s) : Neurosciences computationnelles
Date : Soutenance le 09/04/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de neurosciences cognitives & computationnelles (Paris)
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Mathias Pessiglione
Examinateurs / Examinatrices : Stefano Palminteri, Mathias Pessiglione, Claire M. Gillan, Sebastian Gluth
Rapporteurs / Rapporteuses : Claire M. Gillan, Sebastian Gluth

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

L’apprentissage par renforcement est un processus cognitif fondamental, qui se manifeste au quotidien depuis notre naissance. Grâce à l’expérience, nous apprenons par essais et erreurs à maximiser le nombre d’évènements plaisants (récompenses) et à minimiser le nombre d’évènements désagréables (punitions ou "récompenses négatives"). Dans le cadre de l’apprentissage par renforcement, l’une des questions les plus fondamentales est de savoir si les valeurs sont apprises et représentées sur une échelle absolue ou relative (i.e, dépendante du contexte). La réponse à cette question est non seulement cruciale d’un point de vue théorique, mais est aussi nécessaire pour comprendre pourquoi la prise de décision chez l’humain diverge des modèles normatifs et donne lieu à des comportements sous-optimaux, tels que ceux observés dans de nombreux troubles psychiatriques tels que l’addiction. Afin de répondre à cette question, nous développons des modèles computationnels afin de prendre en compte la dépendance au contexte dans l’apprentissage par renforcement chez l’humain. Dans cette thèse, à travers deux expériences impliquant des tâches probabilistes, nous avons montré que des volontaires sains apprennent les valeurs de façon relative. Cette dépendance au contexte implique par ailleurs des choix sous-optimaux lorsque les options sont comparées en dehors de leur contexte d’apprentissage, ce qui suggère que les valeurs économiques sont normalisées en fonction de l’intervalle généré par les valeurs présentées. De plus, nos résultats ont confirmé que cette adaptation implique des erreurs systématiques et est d’autant plus grande que la tâche est facile. Les analyses comportementales ainsi que les simulations de modèle convergent vers la validation d’un modèle générant une adaptation au contexte progressive. En conclusion, nos résultats montrent que les valeurs ne sont pas représentées sur une échelle absolue, ayant des conséquences positives et négatives. Afin de faire le lien entre – une altération de – ce processus et des troubles psychiatriques impliquant la récompense, nous avons réalisé une méta-analyse sur le biais de valence qu’on observe dans plusieurs maladies. Nos résultats préliminaires suggèrent que les volontaires sains apprennent aussi bien des récompenses que des punitions, ce qui n’est pas le cas des patients souffrant de certaines pathologies comme la maladie de Parkinson ou l’addiction. Dans une expérience à grande échelle avec une approche transnosographique utilisée en psychiatrie computationnelle, nous n’avons pas trouvé de lien direct entre les paramètres de notre modèle et les différentes dimensions des symptômes, dont les troubles obsessionnels compulsifs, l’anxiété sociale et l’addiction. Des travaux complémentaires permettront d’améliorer nos techniques computationnelles pour mieux prendre en compte la variance comportementale. À long terme, ces analyses pourront potentiellement aider à développer des outils pour mieux caractériser les phénotypes pathologiques et les troubles comportementaux, afin d’améliorer le traitement des patients au niveau individuel.