Thèse soutenue

Dimensions mémorielles de l'interaction écrite humain-machine ˸ une approche cognitive par les modèles mnémoniques pour la détection et la correction des incohérences du système dans les dialogues orientés-tâche
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Léon-Paul Schaub
Direction : Patrick ParoubekGil FrancopouloSamuel Rumeur
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 22/03/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Frédéric Landragin
Examinateurs / Examinatrices : Chloé Clavel, Yves Lepage, Frédéric Béchet, Magalie Ochs
Rapporteurs / Rapporteuses : Frédéric Landragin, Chloé Clavel

Résumé

FR  |  
EN

Dans ce travail, nous nous intéressons à la place des systèmes de dialogue orientés-tâche à la fois dans le traitement automatique des langues, et dans l’interaction humain-machine. Nous nous concentrons plus particulièrement sur la différence de traitement de l’information et de l’utilisation de la mémoire, d’un tour de parole à l’autre, par l’humain et la machine, pendant une conversation écrite de type clavardage. Après avoir étudié les mécanismes de rétention et de rappel mémoriels chez l’humain durant un dialogue, en particulier dans l'accomplissement d'une tâche, nous émettons l’hypothèse qu’un des éléments susceptible d'expliquer que les performances des machines demeurent en deçà de celles des humains, est la capacité à posséder non seulement une image de l’utilisateur, mais également une image de soi, explicitement convoquée pendant les inférences liées à la poursuite du dialogue. Cela se traduit pour le système par les trois axes suivants. Tout d’abord, par l’anticipation, à un tour de parole donné, du tour suivant de l’utilisateur. Ensuite, par la détection d’une incohérence dans son propre énoncé, facilitée, comme nous le démontrons, par l’anticipation du tour suivant de l’utilisateur en tant qu’indice supplémentaire. Enfin, par la prévision du nombre de tours de paroles restants dans le dialogue afin d’avoir une meilleure vision de la progression du dialogue, en prenant en compte la potentielle présence d’une incohérence dans son propre énoncé, c’est que nous appelons le double modèle du système, qui représente à la fois l’utilisateur et l’image que le système renvoie à l’utilisateur. Pour mettre en place ces fonctionnalités, nous exploitons les réseaux de mémoire de bout-en-bout, un modèle de réseau de neurones récurrent qui possède la spécificité non seulement de traiter des historiques de dialogue longs (comme un RNN ou un LSTM) mais également de créer des sauts de réflexion, permettant de filtrer l’information contenue à la fois dans l’énoncé de l’utilisateur et dans celui de l’historique de dialogue. De plus, ces trois sauts de réflexion servent de mécanisme d’attention “naturel” pour le réseau de mémoire, à la manière d’un décodeur de transformeur. Pour notre étude, nous améliorons, en y ajoutant nos trois fonctionnalités, un type de réseau de mémoire appelé WMM2Seq (réseau de mémoire de travail par séquence). Ce modèle s’inspire des modèles cognitifs de la mémoire, en présentant les concepts de mémoire épisodique, de mémoire sémantique et de mémoire de travail. Il obtient des résultats performants sur des tâches de génération de réponse de dialogue sur les corpus DSTC2 (humain-machine dans le domaine de restaurant) et MultiWOZ (multi-domaine créé avec Magicien d’Oz); ce sont les corpus que nous utilisons pour nos expériences. Les trois axes mentionnés précédemment apportent deux contributions principales à l’existant. En premier lieu, ceci complexifie l’intelligence du système de dialogue en le dotant d’un garde-fou (incohérences détectées). En second lieu, cela optimise à la fois le traitement des informations dans le dialogue (réponses plus précises ou plus riches) et la durée de celui-ci. Nous évaluons les performances de notre système avec premièrement la f-mesure pour les entités détectées à chaque tour de parole, deuxièmement de score BLEU pour la fluidité de l’énoncé du système et troisièmement de taux d’exactitude jointe pour la réussite du dialogue. Les résultats obtenus montrent l’intérêt d’orienter les recherches vers des modèles de gestion de la mémoire plus cognitifs afin de réduire l’écart de performance dans un dialogue entre l’humain et la machine.