Critères de pertinence linguistiques et statistiques pour l'appariement au sein du couple question réponse

par Karine Lavenus

Thèse de doctorat en Sciences du langage

Sous la direction de Benoît Habert.

Soutenue en 2004

à Paris 10 .


  • Résumé

    Les systèmes de question réponse (QR) commercialisés utilisent généralement des bases de FAQ. Coûteux à mettre en œuvre et à maintenir, restreints à quelques domaines, souvent insatisfaits, ils laissent place à des prototypes participant à des campagnes d'évaluation, devant répondre à des questions de culture générale. Ces systèmes utilisent des techniques issues de la recherche d'information (RI). Des critères linguistiques et statistiques tenant compte des spécificités de la tâche QR peuvent améliorer l'appariement question réponse. Nous proposons une catégorisation sémantique des questions multidimensionnelle (une question peut renvoyer à plusieurs types de réponses) tenant compte de nuances. Une autre piste consiste à sélectionner une bribe de réponse candidate en adaptant à la tâche QR, par apprentissage, les pondérations des termes utilisés par le modèle probabiliste en RI. A ces termes s'ajoutent expansions sémantiques et dérivés morphologiques choisis par retour de pertinence.

  • Titre traduit

    Linguistic and statistical relevance criteria to enhance question-answer pairing


  • Résumé

    Marketed Question Answering (QA) systems generally use FAQ databases. They are often restricted to a few domains and rather expensive to create and maintain. Therefore, they are not satisfactory. That is the reason why prototypical open-domain QA systems have appeared. They use Information Retrieval (IR) techniques. But linguistic and statistical QA-specific criteria should improve QA pairing. We propose a multidimensional semantically-based question categorisation (a question can belong to many question categories), which takes shades of meaning into account. The statistical track consists in selecting an answer chunk by adapting to the QA task the term, expansion and derivative weights used by the probabilistic model in IR. This can be done by using automatic learning and relevance feedback.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 215 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 198-208. Glossaire

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque Agroparc.
  • Disponible pour le PEB
  • Cote : 418 LAV
  • Bibliothèque : Université Paris Ouest Nanterre La Défense. Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : T 04 PA10-149
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.