Thèse de doctorat en Informatique
Sous la direction de Renato De Mori et de Frédéric Béchet.
Soutenue en 2005
à Avignon .
Dans les systèmes de dialogue oral homme-machine, le processus de compréhension consiste à construire une représentation sémantique à partir d'unités sémantiques élémentaires appelées concepts. L'extraction de ces concepts se fait à partir d'une transcription du signal obtenue par un module de reconnaissance de la parole (RAP). Dans cette architecture, la qualité de l'interprétation sémantique est très dépendante de la qualité du processus de RAP. Alternativement à cette approche, nous proposons un modèle basé sur le formalisme des transducteurs à états fini qui met en relation les mots avec les concepts qu'ils représentent. Il permet d'enrichir conceptuellement un graphe de mots. En considérant une interprétation comme étant une séquence de concepts, le processus de décodage proposé fournit une liste structurée des N-meilleures hypothèses d'interprétation de l'énoncé. Cette liste propose en quelques hypothèses, un résumé du graphe de mots, exhaustif et non-redondant du point de vue de la compréhension. Afin de pallier les inévitables erreurs du processus de reconnaissance, nous présentons des mesures de confiance pour diagnostiquer la qualité d'une interprétation. Elles sont basées sur des connaissances acoustiques, linguistiques et sémantiques et opèrent sur différents niveaux: mot,concept, phrase. Ensuite, nous proposons une stratégie d'aide à la décision pour le gestionnaire de dialogue. Cette stratégie s'appuie sur des unités de décision prenant en entrée la liste structurée et les mesures de confiance. En sortie, à chaque hypothèse est associée un état de fiabilité. Selon l'état et ses caractéristiques, des stratégies de correction d'erreurs adaptées sont proposées
Conceptual decoding : how to bridge the gap between speech recognition and understanding processes for spoken dialog systems
Pas de résumé disponible.
We propose in this document a SLU (Spoken Language Understanding) module. First we introduce a conceptual language model for the detection and the extraction of semantic basic concepts from a speech signal. A decoding process is described with a simple example. This decoding process extracts, from a word lattice generated by an Automatic Speech Recognition (ASR) module, structured n-best list of interpretations (set of concepts). This list contains all the interpretations that can be found in the word lattice, with their posterior probabilities, and the n-best values for each interpretation. Then we introduce some confidence measures used to estimate the quality of the result of the previous decoding process. Finally, we describe the integration of the proposed SLU module in a dialogue application, involving a decision strategy based on the confidence measures introduced before