Génération de réponses en langue naturelle orales et écrites pour les systèmes de question-réponse en domaine ouvert

par Anne Garcia-Fernandez

Thèse de doctorat en Informatique

Sous la direction de Anne Vilnat et de Sophie Rosset.


  • Résumé

    Les travaux présentés dans ce mémoire se situent dans le contexte de la réponse à une question. Contrairement à de nombreux travaux traitant de la recherche de l’information à fournir en réponse à une question, notre problématique principale a été de caractériser la forme que peut prendre une réponse en interaction avec une question qui puisse être produite par des systèmes de question-réponse. Nous exposons les enjeux de l’interaction du type “réponse à une question” considérant deux modalités d’interaction : l’oral et l’écrit. Nous montrons que répondre n’est pas uniquement présenter une information mais fait partie d’une interaction entre deux locuteurs. Cherchant à définir ce que pourrait être une réponse en interaction pour les systèmes de question-réponse, nous constatons l’absence de corpus constitué de telles réponses. Dans l’optique de constituer un tel corpus, la forme des questions utilisées lors de la collecte est primordiale. Une étude de l’état de l’art sur les variations linguistiques des questions est ainsi présentée. Nous exposons ensuite la constitution des questions ainsi que la collecte du corpus de réponses à l’oral et à l’écrit, et effectuée auprès de plus de 150 locuteurs natifs du français. Une évaluation du protocole utilisé est ensuite effectuée. Enfin, nous présentons une analyse du corpus collecté en répondant à un ensemble de questions préalables à création d’un module de génération de réponses en langue naturelle dans un système de question-réponse.

  • Titre traduit

    Generation of Speech and Written Answers in Natural Language for Question-Answering Systems in Open-Domain


  • Résumé

    The work presented in this thesis is in the context of question answering. Unlike many works dealing with information retrieval, our main problem is to characterize the possible form of an answer in interaction with the question and which could be produced by question answering systems. We present the case of answering a question considering two interaction modes : orally and in writing. Trying to define what could be an “in interaction answer” for question answering systems, we note the absence of a corpus of such answers. In order to constitute our own answers corpus, the question linguistic form used is important. A state-of-the-art study of questions linguistic variations is presented so. We present the corpus collection, both on oral and written modalities and performed with over 150 french native speakers, and an evaluation of the used protocol. Finally, we present an analysis of the collected corpus answering questions to be asked to implement a module for generating in natural language answers in a question-answering system.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (X-199 p.)
  • Annexes : Bibliogr. p. 185-194

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2010)345
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.