Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif

par Nongdo Désiré Kompaoré

Thèse de doctorat en Informatique

Sous la direction de Josiane Mothe.

Soutenue en 2008

à Toulouse 3 .


  • Résumé

    La recherche d'information (RI) est un domaine de recherche qui est de plus en plus visible, surtout avec la profusion de données (textes, images, vidéos, etc) sur Internet. Nous nous intéressons dans cette thèse à la RI à partir de documents textuels non structurés. Trois éléments sont essentiels dans un processus de RI : un besoin d'information (généralement exprimé sous la forme d’une requête), un système de recherche d'information (SRI), et une collection de documents. Ainsi, la requête est soumise au SRI qui recherche dans la collection les documents les plus pertinents pour la requête. La variabilité relative à l'expression de la requête, la relation entre la requête et les documents, ainsi que celle liée aux caractéristiques des SRI utilisés conduisent à des variabilités dans les réponses obtenues (Buckley et al. , 2004). Ainsi, le système A peut être très performant pour une requête donnée et être très médiocre pour une autre requête, alors que le système B conduira à des résultats inversés. Notre thèse se situe dans ce contexte. Notre objectif est de proposer des méthodes de recherche pouvant s'intégrer dans un modèle de recherche capable de s'adapter à différents contextes. Nous considérons par exemple que les caractéristiques linguistiques (CL) des requêtes, les performances locales des systèmes ainsi que leurs caractéristiques sont des éléments définissant différents contextes. Nous proposons plusieurs processus afin d'atteindre cet objectif. D'une part, nous utilisons un profil linguistique des requêtes (Mothe et Tanguy, 2005) qui nous permet d'établir une classification des requêtes à base de leurs CL. Nous utilisons à cet effet des techniques statistiques d'analyse de données telles que la classification ascendante hiérarchique (CAH) et les k-means. Les requêtes ne sont plus alors considérées de manière isolée, mais sont vues comme des groupes possédant des CL similaires.

  • Titre traduit

    System fusion and analysis of the linguistic features of queries : toward and adaptative information retrieval process


  • Résumé

    Today, accessing wide volumes of information is reality. Information retrieval (IR) techniques are more and more used by a huge number of users on the Internet to retrieve relevant information (data, video, pictures, etc. ). We are interested in this work in textual IR. Three elements are necessary during an IR process : an information need (more often a query of few words), an IR system and a set of documents. The query is submitted to the system which tries to return relevant documents from the set of document as an answer to the user inquiry. Variability in the expression of the query lead to variation in the performances of the systems (Buckley et al. , 2004). For instance, system A can be very efficient for a given query and very bad for an other one, whereas system B gets opposite results. Or thesis is done in this context of variabilities. The main objective of our work is to propose retrieval techniques that can adapt to different contexts. We consider for example that the linguistic features of queries, the performance of the systems and their characteristics are contextual elements of the retrieval process. Many propositions are done in this thesis. Queries are clustered according to their linguistic features (Mothe et Tanguy, 2005) with technics like Agglomerative clustering methods and k-means. Queries are then analysed by the linguistic profile of their belonging cluster. The underlying hypothesis is that some IR systems are more suitable than other for different clusters of queries. We analyse the performance of the systems for each of the determined cluster of queries (query context). Four fusion methods are proposed and tested with a set of experiments. This work is done in the context of TREC campain.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (233 p.)
  • Annexes : Bibliogr. p. 198-210

Où se trouve cette thèse ?