Utilisation d'ontologies comme support à la recherche et à la navigation dans une collection de documents

par Mohameth François Sy

Thèse de doctorat en Informatique

Sous la direction de Michel Crampes, Sylvie Ranwez et de Vincent Ranwez.

Soutenue le 11-12-2012

à Montpellier 2 , dans le cadre de Information, Structures, Systèmes (Montpellier ; École Doctorale ; 2009-2014) , en partenariat avec LGI2P - Laboratoire de Génie Informatique et d'Ingénierie de Production - Ecole des Mines d'Alès (laboratoire) .


  • Résumé

    Les ontologies offrent une modélisation des connaissances d'un domaine basée sur une hiérarchie des concepts clefs de ce domaine. Leur utilisation dans le cadre des Systèmes de Recherche d'Information (SRI), tant pour indexer les documents que pour exprimer une requête, permet notamment d'éviter les ambiguïtés du langage naturel qui pénalisent les SRI classiques. Les travaux de cette thèse portent essentiellement sur l'utilisation d'ontologies lors du processus d'appariement durant lequel les SRI ordonnent les documents d'une collection en fonction de leur pertinence par rapport à une requête utilisateur. Nous proposons de calculer cette pertinence à l'aide d'une stratégie d'agrégation de scores élémentaires entre chaque document et chaque concept de la requête. Cette agrégation, simple et intuitive, intègre un modèle de préférences dépendant de l'utilisateur et une mesure de similarité sémantique associée à l'ontologie. L'intérêt majeur de cette approche est qu'elle permet d'expliquer à l'utilisateur pourquoi notre SRI, OBIRS, estime que les documents qu'il a sélectionnés sont pertinents. Nous proposons de renforcer cette justification grâce à une visualisation originale où les résultats sont représentés par des pictogrammes, résumant leurs pertinences élémentaires, puis disposés sur une carte sémantique en fonction de leur pertinence globale. La Recherche d'Information étant un processus itératif, il est nécessaire de permettre à l'utilisateur d'interagir avec le SRI, de comprendre et d'évaluer les résultats et de le guider dans sa reformulation de requête. Nous proposons une stratégie de reformulation de requêtes conceptuelles basée sur la transposition d'une méthode éprouvée dans le cadre de SRI vectoriels. La reformulation devient alors un problème d'optimisation utilisant les retours faits par l'utilisateur sur les premiers résultats proposés comme base d'apprentissage. Nous avons développé une heuristique permettant de s'approcher d'une requête optimale en ne testant qu'un sous-espace des requêtes conceptuelles possibles. Nous montrons que l'identification efficace des concepts de ce sous-espace découle de deux propriétés qu'une grande partie des mesures de similarité sémantique vérifient, et qui suffisent à garantir la connexité du voisinage sémantique d'un concept.Les modèles que nous proposons sont validés tant sur la base de performances obtenues sur des jeux de tests standards, que sur la base de cas d'études impliquant des experts biologistes.

  • Titre traduit

    ONTOLOGY BASED INFORMATION RETRIEVAL


  • Résumé

    Domain ontologies provide a knowledge model where the main concepts of a domain are organized through hierarchical relationships. In conceptual Information Retrieval Systems (IRS), where they are used to index documents as well as to formulate a query, their use allows to overcome some ambiguities of classical IRSs based on natural language processes.One of the contributions of this study consists in the use of ontologies within IRSs, in particular to assess the relevance of documents with respect to a given query. For this matching process, a simple and intuitive aggregation approach is proposed, that incorporates user dependent preferences model on one hand, and semantic similarity measures attached to a domain ontology on the other hand. This matching strategy allows justifying the relevance of the results to the user. To complete this explanation, semantic maps are built, to help the user to grasp the results at a glance. Documents are displayed as icons that detail their elementary scores. They are organized so that their graphical distance on the map reflects their relevance to a query represented as a probe. As Information Retrieval is an iterative process, it is necessary to involve the users in the control loop of the results relevancy in order to better specify their information needs. Inspired by experienced strategies in vector models, we propose, in the context of conceptual IRS, to formalize ontology based relevance feedback. This strategy consists in searching a conceptual query that optimizes a tradeoff between relevant documents closeness and irrelevant documents remoteness, modeled through an objective function. From a set of concepts of interest, a heuristic is proposed that efficiently builds a near optimal query. This heuristic relies on two simple properties of semantic similarities that are proved to ensure semantic neighborhood connectivity. Hence, only an excerpt of the ontology dag structure is explored during query reformulation.These approaches have been implemented in OBIRS, our ontological based IRS and validated in two ways: automatic assessment based on standard collections of tests, and case studies involving experts from biomedical domain.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.