Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

par Axel Reymonet

Thèse de doctorat en Informatique

Sous la direction de Nathalie Aussenac-Gilles et de Jérôme Thomas.

Soutenue en 2008

à Toulouse 3 .


  • Résumé

    Avec l'avènement d'Internet et des réseaux d'entreprise, les documents numériques ont subi de profondes transformations, tant dans la diversification de leur support (texte, image, son, vidéo), que dans la forte augmentation de leur nombre accessible informatiquement. La Recherche d'Information (RI) a alors pris une importance capitale : l'utilisateur en quête de données répondant à ses besoins veut disposer de logiciels capables d'exploiter les contenus textuels et de trouver automatiquement tout document pertinent pour la requête. Pour comparer selon leur sens requête et documents, la RI sémantique nécessite deux opérations préalables : l'obtention d'un modèle des connaissances manipulées et, grâce à lui, l'indexation sémantique des données textuelles. Dans ce mémoire, nous étudions les modèles de Ressources Termino-Ontologiques (RTO) adaptés à la RI et développons un formalisme qui, contrairement aux approches classiques, décrit explicitement la relation entre termes du lexique et concepts de l'ontologie, tout en respectant le standard OWL-DL. Nous abordons ensuite la problématique de maintenance d'une RTO pour la RI : quand un domaine évolue dans le temps, sa RTO correspondante doit être modifiée en conséquence. L'originalité de notre approche réside dans la mise en parallèle entre maintenance de RTO et indexation sémantique : l'ontographe définit des règles évaluant automatiquement la correction de la RTO en fonction des résultats d'indexation attendus ; appliquées aux documents à indexer, ces règles aident à repérer ceux qui témoignent de la nécessité de maintenance. L'outil présente alors ces documents avec des conseils de modification. Notre dernière contribution inclut notre formalisme de RTO et le cycle de maintenance au sein d'un processus global de RI sémantique. Nous nous intéressons notamment à la comparaison sémantique d'un document à une requête en langue naturelle. Nous proposons une mesure de similarité tenant compte de la proximité taxonomique de deux notions, ainsi que de la manière dont chacune est reliée sémantiquement à d'autres éléments. La pertinence de nos contributions a été principalement mise à l'épreuve par la réalisation et l'utilisation d'un prototype d'outil pour la RI sémantique dans le cadre d'un partenariat avec Actia, une société spécialiste du diagnostic automobile.

  • Titre traduit

    Knowledge engineering from texts for a semantic information retrieval


  • Résumé

    With the spreading of Internet and local networks, numerical documents have been undergoing deep mutations, mainly due to the diversification of supports (text, image, sound, video) and their high number accessible by computers. Information Retrieval (IR) has thus become crucial: any user of a search engine wants it to be able to process textual contents to find automatically all documents relevant for their query. In order to compare a query with a document, semantic IR needs two prior operations to be carried out: obtaining a model for the handled knowledge and using it to index semantically the textual data. In this thesis, we study Ontological and Terminological Resources (OTR) adapted for IR and we develop a formalism which, unlike classical approaches, explicitly describes the relationship between terms and concepts, while respecting OWL-DL standard. Afterwards, we broach the topic of maintaining an OTR for IR: when a domain evolves in time, its corresponding OTR must be modified accordingly. The originality of our approach lies in the parallel computing of OTR maintenance and semantic indexing: the engineer can define rules which evaluate automatically the correctness of the OTR with respect to the expected indexing results; applied to the documents to be indexed, these rules help to spot the ones which show the necessity of maintaining the OTR. The tool then displays these documents with evolution advice. Our last contribution consists in integrating our OTR formalism and the maintenance cycle into a global semantic IR process. We especially focus on the semantic matching between a document and a keyword based query. We propose a semantic similarity measure which takes into account both the taxonomical proximity of two notions and the way each one is semantically connected to other entities. The relevance of our contributions was mainly tested by the implementation and use of a prototype tool for semantic IR as part of a partnership with ACTIA, a company specialized in automotive diagnosis.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (194 p.)
  • Annexes : Bibliogr. p. 175-188

Où se trouve cette thèse ?