Thèse soutenue

Vers une Compréhension Contextuelle et Structurée de la Parole Dialogique Orientée Tâche

FR  |  
EN
Auteur / Autrice : Lucas Druart
Direction : Yannick Estève
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/10/2024
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Président / Présidente : Frédéric Béchet
Examinateurs / Examinatrices : Valentin Vielzeuf, Dilek Hakkani-Tür
Rapporteurs / Rapporteuses : François Portet, Sophie Rosset

Résumé

FR  |  
EN

Il est essentiel de comprendre précisément les demandes de l’utilisateur pour assurer une interaction fluide avec les systèmes de Dialogues Orientés Tâche (DOT). Traditionnellement, ces systèmes adoptent des approches en cascade qui combinent la Reconnaissance Automatique de la Parole (RAP) avec la Compréhension du Language Naturel (CLN). Cependant, ces systèmes ont encore du mal à correctement associer les demandes complexes des utilisateurs avec leurs représentation internes. Des travaux récents mettent en évidence les possibilités d’amélioration de ces systèmes. D’une part, les approches de bout-en-bout ont permis d’améliorer les performances des systèmes de Compréhension de la Parole (CP). En effet, elles fournissent des prédictions plus précises et robustes en exploitant l’optimisation jointe et des informations paralinguistiques. D’autre part, des jeux de données textuels proposent des représentations sémantiques structurées. En effet, de telles représentations semblent plus adéquates pour représenter les demandes complexes des utilisateurs.Cette thèse explore ces deux directions pour une compréhension contextuelle et structurée de la parole dialogique orientée tâche. Nous menons d’abord une étude préliminaire consacrée à la CP dans le contexte des DOT. Nous avons conçu une approche en cascade pour effectuer le Suivi d’État du Dialogue (SED) parlé sur MultiWOZ. Notre approche s’est classée première dans le Speech Aware Dialogue System Technology Challenge grâce à une correction automatique des transcriptions et à de l’augmentation des données.Ensuite, nous avons proposé une nouvelle méthode pour réaliser le SED parlé de manière complètement neuronale pour MultiWOZ et SpokenWOZ. Notre approche fusionne une représentation latente du contexte textuel avec une représentation latente des derniers tours de parole afin de conditionner le décodeur d’états de dialogue. Bien qu’elle bénéficie d’optimisation jointe, en particulier dans les contextes purement audio, elle peine à propager correctement le contexte du dialogue.Enfin, en réponse à la différence de représentations sémantiques entre les jeux de données de DOT textuels et parlés, nous avons introduit le jeu de données ReMEDIATES. Celui-ci a été construit en augmentant, de manière semi-automatique,le jeu de données MEDIA avec des arbres sémantique. Le benchmark associé permet d’évaluer les modèles d’analyse sémantique des dialogues parlés avec des représentations contextuelles et structurées, ce qui ouvre des perspectives pour les défis à venir.