Thèse soutenue

Traitement automatique des langues pour l'analyse de la subjectivité dans les récits personnels

FR  |  
EN
Auteur / Autrice : Gustave Cortal
Direction : Alain FinkelPatrick ParoubekLina Ye
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/01/2026
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Méthodes formelles (Gif-sur-Yvette, Essonne ; 2021-....) - Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Frédéric Boulanger
Examinateurs / Examinatrices : Chloé Clavel, Frédéric Béchet, Delphine Battistelli, Guillaume Dumas, Brian Ravenet
Rapporteurs / Rapporteuses : Chloé Clavel, Frédéric Béchet

Résumé

FR  |  
EN

Les récits personnels sont des histoires que les individus racontent sur leurs propres vécus, donnant à voir leurs pensées, sentiments et perceptions. Cette thèse explore des manières de modéliser l'expérience subjective dans ces récits en adoptant une approche interdisciplinaire à la croisée du traitement automatique des langues, des sciences cognitives et de la psychologie. Nous ancrons d'abord l'analyse des émotions dans les sciences cognitives afin d'identifier les limites des pratiques d'annotation dominantes. De cette communication émergent des pistes concrètes pour améliorer les modèles de langue, notamment en prenant mieux en compte les différentes composantes de l'émotion. Pour mettre ces idées en pratique, nous concevons des jeux de données et des modèles de langue dédiés. Premièrement, nous construisons un corpus français de situations de vie, structuré selon plusieurs composantes (comportements, ressentis et pensées). L'étude des interactions entre ces composantes confirme par l'informatique l'hypothèse de Scherer : un épisode émotionnel se caractérise par une synchronisation des composantes, la performance de classification de l'émotion discrète étant maximale lorsqu'elles sont prises conjointement. Passant des situations de vie concrètes aux situations oniriques, nous analysons les émotions dans les récits de rêve. Pour pallier le manque de données annotées dans ce domaine, nous automatisons l'annotation du corpus DreamBank à l'aide d'un cadre séquence-à-séquence pour la détection des personnages et de leurs émotions. Nous étudions plusieurs phénomènes, comme l'effet de la taille des modèles et de l'ordre de prédiction sur les performances. Enfin, nous passons du contenu à la forme en considérant le style comme un indicateur de la manière dont l'expérience subjective s'exprime linguistiquement. Nous formalisons le style comme des motifs séquentiels de choix linguistiques,combinant linguistique fonctionnelle et fouille de motifs. L'application de ce cadre à des centaines de rêves, et notamment une étude de cas sur un vétéran ayant un stress post-traumatique, permet de traduire des réalités linguistiques en pistes d'interprétations psychologiques, ouvrant ainsi des perspectives pour la psychiatrie computationnelle.