Etude de l'influence du passage à l'échelle sur les modèles de recherche d'information

par Amélie Imafouo

Thèse de doctorat en Informatique

Sous la direction de Jean-Jacques Girardot et de Michel Beigbeder.

Soutenue en 2006

à Saint-Etienne, EMSE .


  • Résumé

    Les évolutions technologiques de ces dernières années ont entraîné une croissance exponentielle de la quantité d'information numérique disponible. La Recherche d'Information, discipline dont le cœur de métier est la manipulation de cette information est questionnée par cette croissance rapide. Les travaux présentés dans cette thèse se sont penchés sur le problème de l'influence du passage à l'échelle sur les performances des modèles de Recherche d'Information. Après un tour des travaux du domaine qui prennent en compte le passage à l'échelle, des méthodologies pour construire des espaces de recherche de tailles croissantes et dont le contenu est contrôlé sont proposées dans un premier temps; ces espaces de recherches sont utilisés pour observer les performances de divers modèles de RI en fonction de la taille des données manipulées. Dans un second temps, les travaux portent sur la proposition de métriques prenant en compte plusieurs niveaux de pertinence pour un document; la notion d'importance d'un niveau de pertinence est formalisée et la notion de gain d'information entre deux niveaux de pertinence est introduite. Ces deux notions permettent de fournir des métriques dédiées à analyser la capacité des systèmes de RI à retourner des documents en fonction de leur niveau de pertinence, au fur et à mesure que la taille de l'espace de recherche augmente

  • Titre traduit

    Studying the scalability influence on information retrieval models.


  • Résumé

    Information grows continuously; for professional or personal reasons the need of easy access to it comes under the Information Retrieval field. We first of all make a tour of IR works linked to the scalability, and we notice that few of theses works tackled the questions of Information Retrieval Systems effectiveness in the context of scalability in corpus size. After that, the first part of our work is about a methodology which makes it possible to study the scalability influence on some properties of IR models. This methodology constructs a succession of collections of growing sizes on which a given characteristic C (that acts on the studied properties) is the same; then we analyze the properties as the collection size increases. The second part of our work relates to metrics for evaluating the ability of IRS to rank documents according to their relevance levels when collection size increases. Indeed, for the user's point of view, in large environments, it can be desirable to have Information Retrieval Systems that retrieve documents according to their relevance levels. Relevance levels have been studied in some previous Information Retrieval works while some others (few) IR research works tackled the questions of IRS effectiveness and collections size. These latter works used standard IR measures on collections of increasing size to analyze IRS effectiveness scalability. In this part of our work, we bring together these two issues in IR (multigraded relevance and scalability) by designing these metrics

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (VIII-184 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. Index

Où se trouve cette thèse ?

  • Bibliothèque : Ecole nationale supérieure des mines. Centre de documentation et d'information.
  • Disponible pour le PEB
  • Cote : 005.741 IMA
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.