Thèse soutenue

Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

FR  |  
EN
Auteur / Autrice : Axel Reymonet
Direction : Nathalie Aussenac-GillesJérôme Thomas
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Toulouse 3

Résumé

FR  |  
EN

Avec l'avènement d'Internet et des réseaux d'entreprise, les documents numériques ont subi de profondes transformations, tant dans la diversification de leur support (texte, image, son, vidéo), que dans la forte augmentation de leur nombre accessible informatiquement. La Recherche d'Information (RI) a alors pris une importance capitale : l'utilisateur en quête de données répondant à ses besoins veut disposer de logiciels capables d'exploiter les contenus textuels et de trouver automatiquement tout document pertinent pour la requête. Pour comparer selon leur sens requête et documents, la RI sémantique nécessite deux opérations préalables : l'obtention d'un modèle des connaissances manipulées et, grâce à lui, l'indexation sémantique des données textuelles. Dans ce mémoire, nous étudions les modèles de Ressources Termino-Ontologiques (RTO) adaptés à la RI et développons un formalisme qui, contrairement aux approches classiques, décrit explicitement la relation entre termes du lexique et concepts de l'ontologie, tout en respectant le standard OWL-DL. Nous abordons ensuite la problématique de maintenance d'une RTO pour la RI : quand un domaine évolue dans le temps, sa RTO correspondante doit être modifiée en conséquence. L'originalité de notre approche réside dans la mise en parallèle entre maintenance de RTO et indexation sémantique : l'ontographe définit des règles évaluant automatiquement la correction de la RTO en fonction des résultats d'indexation attendus ; appliquées aux documents à indexer, ces règles aident à repérer ceux qui témoignent de la nécessité de maintenance. L'outil présente alors ces documents avec des conseils de modification. Notre dernière contribution inclut notre formalisme de RTO et le cycle de maintenance au sein d'un processus global de RI sémantique. Nous nous intéressons notamment à la comparaison sémantique d'un document à une requête en langue naturelle. Nous proposons une mesure de similarité tenant compte de la proximité taxonomique de deux notions, ainsi que de la manière dont chacune est reliée sémantiquement à d'autres éléments. La pertinence de nos contributions a été principalement mise à l'épreuve par la réalisation et l'utilisation d'un prototype d'outil pour la RI sémantique dans le cadre d'un partenariat avec Actia, une société spécialiste du diagnostic automobile.