Modélisation et prototypage d'un système de recherche d'informations basé sur la proximité des occurences des termes de la requête dans les documents

par Annabelle Mercier

Thèse de doctorat en Informatique

Sous la direction de Jean-Jacques Girardot.

Soutenue en 2006

à Saint-Etienne, EMSE .


  • Résumé

    La croissance des données numériques accentue le verrou scientifique de la RI consistant à trouver un compromis entre exhaustivité et précision des résultats. Le modèle proposé, la proximité floue (PF), allie expressivité des requêtes booléennes et utilisation de la proximité, et vise une approche à haute précision. Chaque mot-clé possède une zone d'influence utile à l'évaluation des requêtes. Les opérations floues associées aux opérateurs booléens classiques permettent de propager la proximité jusqu'à la racine. La PF a été largement validée sur les collections de test classiques et pour les éditions 2005 et 2006 des campagnes d'évaluations internationales de RI (Trec, Clef et Inex 2006). Les résultats sur des requêtes construites automatiquement sont équivalents à ceux des méthodes de référence Okapi/Lucy, vectoriel/MG. Par contre, avec l'utilisation de requêtes manuelles adaptées à la PF, les résultats sont très largement supérieurs aux modèles classiques.

  • Titre traduit

    Fuzzy term proximity information retrieval model and system.


  • Résumé

    The huge size of digital data accentuates the scientific challenge of information retrieval (IR) consisting in finding a compromise between recall and precision. We propose an IR model based on fuzzy proximity (FP) of the query terms which is aimed to high precision. It combines the expressivity of the Boolean query model and the ranking of the documents thanks to the use of proximity. Each keyword defines an influence zone at the query evaluation time. The fuzzy operations associated to the traditional Boolean operators propagate the proximity to the root of the query tree. The FP model was largely validated on the traditional test collections and at the 2005 and 2006 editions of the international IR evaluation campaigns (TREC, CLEF and INEX 2006). The results obtained with the automatically built queries are equivalent to the baselines (Okapi/Lucy and vector/MG). Moreover, with manual queries adapted to FP, the results are better than the baselines.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol (VIII-169 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque :
  • Disponible pour le PEB
  • Cote : 005.741 MER
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.