Thèse soutenue

Indexation sémantique de documents XML

FR  |  
EN
Auteur / Autrice : Haïfa Zargayouna
Direction : Gérard Sabah
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Les documents XML, posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'information. Ils présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans différents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Le Web sémantique repose sur la capacité de XML à définir des balises "personnalisées" et de standards pour décrire formellement la signification de laterminologie employée dans les documents Web. L'intérêt de l'utilisation de l'ontologie en Recherche d'information a redoublé avec le Web sémantique. Nous nous inscrivons dans cette optique en défendant la thèse qu'une description fine des documents est coûteuse et qu'il serait utile d'avoir une représentation intermédiaire pour retrouver les informations pertinentes. L'objectif de nos travaux est de proposer des méthodes qui mettent à profit la structure et le contenu sémantique des documents. Le modèle que nous proposons repose sur : 1. Un modèle générique qui permet d'indexer des documents qui possèdent des structures hétérogènes et qui permet de retrouver et d'apparier ces structures. 2. Un langage de requête qui à la différence des langages de requêtes qui existent est plus intuitif et repose sur une syntaxe XML. Notre langage permet de poser des requêtes vagues sur la structure et sur le contenu ainsi que des requêtes simples mots-clés. La prise en compte de la sémantique est totalement transparente à l'utilisateur.