Thèse soutenue

Quelles méthodes pour les systèmes de Questions/Réponses ? : une avancée vers le tout numérique
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Laurent Gillard
Direction : Marc El-Bèze
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2007
Etablissement(s) : Avignon

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Les systèmes de Questions/Réponses (sQR) sont des outils particulièrement intéressants pour satisfaire l’éventuel besoin d’information d’un utilisateur. En effet, ces systèmes de recherche d’information permettent d’obtenir une réponse précise et concise à des questions formulées de manière naturelle telles que « Quel est le titre de l'autobiographie de Nelson Mandela ? », « Quel chercheur allemand a reçu le prix scientifique Robert-Koch ? » ou « Quand ont commencé les rencontres du cinéma italien d'Annecy en 1992 ? ». Après avoir introduit les principes des systèmes de Questions/Réponses, ce mémoire se propose d’étudier plus spécifiquement différentes approches numériques (sous la contrainte de disposer de peu de connaissances a priori) pour deux étapes clés de ces sQR : celle de la sélection de passages pertinents ; et celle de l’extraction d’une réponse « exacte » à une question factuelle. Ces stratégies numériques ont été mises en œuvre dans le cadre de campagnes d'évaluation, et notamment au travers d’une participation à la campagne francophone Technolangue-EQueR (avec des données en français). Cette dernière permet, en outre, de définir un référentiel de comparaison pour l’ensemble des expérimentations présentées. Enfin, ces améliorations ont été envisagées d’après l’examen des performances d’un premier système introductif développé pour une participation à la campagne internationale Text REtrieval Conference (avec des données en langue anglaise). Ainsi, deux scores sont proposés : le premier, appelé score de densité, permet une sélection des passages dans les documents ; le second, le score de compacité, permet de choisir une réponse candidate (compatible avec un type de réponse attendu) en fonction de sa proximité et de la densité des mots de la question dans son contexte. Ces deux scores sont discutés, évalués et comparés à d’autres approches conventionnelles employées en Recherche d’Information. Ensuite, une extension probabiliste de la compacité est modélisée (avec des performances comparables) afin d’ouvrir des perspectives sur l’intégration de variantes sémantiques des mots directement au sein du calcul numérique du score. Enfin, la prise en compte de critères d’expressivité déduits de la formulation des scores permet leur combinaison optimale. Concernant les questions booléennes (une autre catégorie de questions étudiées lors d’EQueR), une méthode particulière de résolution est esquissée en combinant quelques connaissances linguistiques à des calculs numériques de parité et de polarité