Quelles méthodes pour les systèmes de Questions/Réponses ? : une avancée vers le tout numérique

par Laurent Gillard

Thèse de doctorat en Informatique

Sous la direction de Marc El-Bèze.

Soutenue en 2007

à Avignon .


  • Résumé

    Les systèmes de Questions/Réponses (sQR) sont des outils particulièrement intéressants pour satisfaire l’éventuel besoin d’information d’un utilisateur. En effet, ces systèmes de recherche d’information permettent d’obtenir une réponse précise et concise à des questions formulées de manière naturelle telles que « Quel est le titre de l'autobiographie de Nelson Mandela ? », « Quel chercheur allemand a reçu le prix scientifique Robert-Koch ? » ou « Quand ont commencé les rencontres du cinéma italien d'Annecy en 1992 ? ». Après avoir introduit les principes des systèmes de Questions/Réponses, ce mémoire se propose d’étudier plus spécifiquement différentes approches numériques (sous la contrainte de disposer de peu de connaissances a priori) pour deux étapes clés de ces sQR : celle de la sélection de passages pertinents ; et celle de l’extraction d’une réponse « exacte » à une question factuelle. Ces stratégies numériques ont été mises en œuvre dans le cadre de campagnes d'évaluation, et notamment au travers d’une participation à la campagne francophone Technolangue-EQueR (avec des données en français). Cette dernière permet, en outre, de définir un référentiel de comparaison pour l’ensemble des expérimentations présentées. Enfin, ces améliorations ont été envisagées d’après l’examen des performances d’un premier système introductif développé pour une participation à la campagne internationale Text REtrieval Conference (avec des données en langue anglaise). Ainsi, deux scores sont proposés : le premier, appelé score de densité, permet une sélection des passages dans les documents ; le second, le score de compacité, permet de choisir une réponse candidate (compatible avec un type de réponse attendu) en fonction de sa proximité et de la densité des mots de la question dans son contexte. Ces deux scores sont discutés, évalués et comparés à d’autres approches conventionnelles employées en Recherche d’Information. Ensuite, une extension probabiliste de la compacité est modélisée (avec des performances comparables) afin d’ouvrir des perspectives sur l’intégration de variantes sémantiques des mots directement au sein du calcul numérique du score. Enfin, la prise en compte de critères d’expressivité déduits de la formulation des scores permet leur combinaison optimale. Concernant les questions booléennes (une autre catégorie de questions étudiées lors d’EQueR), une méthode particulière de résolution est esquissée en combinant quelques connaissances linguistiques à des calculs numériques de parité et de polarité

  • Titre traduit

    Towards density and proximity extraction scores for Question Answering Systems


  • Résumé

    Question Answering Systems (QAS) are particularly useful tools to meet the potential user needs for information. Indeed, these information retrieval systems can give short and precise answers to questions expressed in a natural language such as “Which German researcher received the Robert-Koch scientific prize ?”. After introducing QAS principles, this dissertation examined specific numerical approaches (assuming poor prior knowledge) for two key-stages of QAS: selecting relevant passages (excerpts) and extracting “short” answers to factual questions. These numerical strategies were implemented within the context of evaluation campaigns, such as The French Technolangue-EQueR Campaign. This particular campaign was used as a benchmark for all the experiments studied in this work. Thus, two main scores were defined and explored: a density score to select passages and a compactness score to select a candidate answer (corresponding to an expected-answer type). Compactness can be seen as a lexical similarity measure, which depends on density and proximity of relevant words found in the question and of semantic features derived from the question. These two scores were discussed and compared to other approaches used for information retrieval. For compactness, a probabilistic extension model was also proposed to integrate semantic words variants directly into the numerical score computation. Finally, criteria derived from these scores were mixed to improve performance. Regarding Boolean questions (another category of questions from EQueR), a particular method of resolution was described: it combined linguistic criteria and numerical computations based on parity and polarity

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (198 p.)
  • Annexes : Bibliogr. p. 168-176. Bibliogr. de l'auteur : p. 177-178

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.07.344
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.