Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information médicale

par Loïc Maisonnasse

Thèse de doctorat en Informatique

Sous la direction de Catherine Berrut et de Jean-Pierre Chevallet.

Soutenue en 2008

à l'Université Joseph Fourier (Grenoble) .

    mots clés mots clés


  • Résumé

    Cette thèse propose un cadre général pour développer des modèles orientés précision en recherche d’information (RI). Ce cadre s'appuie sur la notion de supports de vocabulaires pour modéliser l’expressivité des représentations utilisées en RI. Peu de cadres de modélisation sont disponibles dans ce domaine. Nous proposons un tel cadre axé sur la modélisation de l’expressivité et qui permet de choisir ou de comparer des modèles sur ce critère. Dans ce cadre nous nous orientons vers l’utilisation de représentations expressives du texte. Nous proposons deux modèles utilisant des représentations d’expressivité forte à base de graphes. Si ces deux modèles se ressemblent au niveau de l’expressivité, ils s’opposent sur leur modèle sous-jacent. Nous implémentons l’un des modèles par un modèle dérivé des graphes conceptuels et l’autre par un modèle original dérivé des modèles de langue de RI. Pour l'application de ces modèles sur du texte, nous proposons un processus en deux étapes basé sur des traitements de la langue qui favorise la couverture du document. La première étape, dépendante du domaine d’application, produit une représentation intermédiaire des documents où chaque phrase est représentée par un graphe. La deuxième étape crée les représentations finales des documents à partir de la représentation intermédiaire. Nous appliquons finalement nos modèles sur le domaine médical à l'aide du méta-thésaurus UMLS et en proposant plusieurs méthodes pour construire la représentation intermédiaire. L’efficacité de nos modèles est prouvée par des expérimentations sur la campagne d’évaluation CLEF médicale qui permet de tester nos modèles dans un cadre réel.


  • Résumé

    This Ph. D. Explores a framework for the development of precision-oriented information retrieval (IR) models. This framework promotes the notion of vocabulary support to model expressive representations used by IR systems. Indeed few modelling framework are available to specify IR systems. We propose such a framework which focuses on the modelling of expressiveness. This framework can be used to choose or to compare models on their level of expressiveness. In this framework we are moving towards the use of an expressive representation of the text. For this, we propose two models that are using representations with strong expressiveness. Both models are based on graphs. Through these two models are similar on their expressiveness, they are opposed on their underlying models. Indeed, we implement our first model with a model derived from conceptual graphs, and the second one with a model derived from the language modelling approach to IR. To use these models on text, we propose the use of a two-step process based on language processing that promotes information coverage. The first step produces an intermediate representation of documents in which each sentence is represented by a graph. This step is domain dependent. The second step creates documents final representations from the intermediate one. We finally apply our two models on the medical domain. To do so, we use the meta-thesaurus UMLS and we propose several ways to build the intermediate representation of documents. The effectiveness of our model is proven by a number of experiments on the CLEF medical campaign. This campaign enables us to test our models in a real framework and to compare it to other teams.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (220 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 87 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS08/GRE1/0057/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS08/GRE1/0057
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.