Apprentissage et décision automatique en recherche documentaire : prédiction de difficulté de requêtes et sélection de modèle de recherche

par Jens Grivolla

Thèse de doctorat en Informatique

Sous la direction de Renato De Mori et de Pierre Jourlin.

Soutenue en 2006

à Avignon .


  • Résumé

    Cette thèse se situe dans la problématique de la recherche documentaire. Dans ce domaine, chaque besoin en information est exprimé par un utilisateur sous la forme d'une requête en langage naturel. Il existe différentes approches pour traiter ces requêtes, mais les systèmes actuels utilisent généralement une méthode unique, indépendante des caractéristiques de la requête. On peut pourtant montrer de façon expérimentale que la performance relative d'une technique de recherche sur une autre peut varier considérablement suivant la requête traitée. Nous avons abordé cette thématique en proposant des méthodes qui permettent de repérer automatiquement les requêtes qui posent des difficultés particulières au système utilisé, afin de permettre un traitement spécifique et adapté. Nous avons ainsi dégagé un certain nombre de fonctions de prédiction de qualité qui obtiennent des résultats comparables à ceux publiés récemment par d'autres équipes de recherche. La particularité et originalité de ce travail a consisté à étudier la combinaison de ces différentes mesures. En utilisant des méthodes de classification automatique, nous avons obtenu des prédictions relativement fiables sur la base de mesures qui individuellement ont un pouvoir de discrimination considérablement plus faible. Au-delà de la prédiction de difficulté des requêtes, nous avons utilisé nos méthodes pour adapter le processus de recherche à la requête posée

  • Titre traduit

    Automatic learning and decision in information retrieval : predicting query difficulty and retrieval model selection


  • Pas de résumé disponible.


  • Résumé

    This thesis is centered around the subject of information retrieval, with a focus on those queries that are particularly difficult to handle for current retrieval systems. In the application and evaluation settings we were concerned with, a user expresses his information need as a natural language query. There are different approaches for treating those queries, but current systems typically use a single approach for all queries, without taking into account the specific properties of each query. However, it has been shown that the performance of one strategy relative to another can vary greatly depending on the query. We have approached this problem by proposing methods that will permit to automatically identify those queries that will pose particular difficulties to the retrieval system, in order to allow for a specific treatment. This research topic was very new and barely starting to be explored at the beginning of my work, but has received much attention these last years. We have developed a certain number of quality predictor functions that obtain results comparable to those published recently by other research teams. However, the ability of individual predictors to accurately classify queries by their level of difficulty remains rather limited. The major particularity and originality of our work lies in the combination of those different measures. Using methods of automatic classification with corpus-based training, we have been able to obtain quite reliable predictions, on the basis of measures that individually are far less discriminant. We have also adapted our approach to other application settings, with very encouraging results. We have thus developed a method for the selective application of query expansion techniques, as well as the selection of the most appropriate retrieval model for each query

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (127 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.121-126

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.06.253
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.