Documents multi-structurés : de la modélisation vers l'exploitation

par Noureddine Chatti

Thèse de doctorat en Informatique

Sous la direction de Jean-Marie Pinon et de Sylvie Calabretto.

Soutenue en 2006

à Villeurbanne, INSA .


  • Résumé

    La structuration multiple des documents pose différents types de problématiques. Parmi celles-ci la représentation des ces documents ainsi que leurs exploitations notamment dans un contexte de recherche d’information. Le problème principal réside dans le fait qu’il n’existe pas un formalisme standardisé permettant de matérialiser de manière appropriée et pérenne un document possédant plusieurs structures. Les travaux de recherche que nous avons mené au cours de cette thèse nous ont conduit à définir un modèle spécifique pour la représentation de ce type de documents. Le modèle MSDM (Multi-Structured Document Model) que nous proposons se veut un modèle générique intégrant des caractéristiques spécifiques aux documents multi-structurés tout en étant facilement exploitable. Partant de ce modèle nous avons proposé un formalisme, basé sur XML, appelé MultiX permettant la sérialisation de ces documents. Nous avons étudié l’exploitation de ces documents dans le contexte de la recherche d’information. Pour interroger efficacement les documents multi-structurés au format MultiX, nous avons développé une extension du langage XQuery sous forme d’une bibliothèque de fonctions spécifiques. Ces fonctions permettent une exploitation plus efficace et plus facile des documents MultiX. Pour valider nos propositions nous avons implémenté un framework offrant des possibilités de création d’analyse et de manipulation de documents multi-structurés.

  • Titre traduit

    Multi-structured documents : from modelling towards exploitation


  • Résumé

    In this thesis manuscript we propose a generic model, called MSDM (Multi-Structured Document Model), which allows integrating the specific characteristics of the multi-structured documents in an appropriate representation. In the MSDM model several important concepts have been defined in order to facilitate the multi-structured documents exploitation. Using this model we have proposed an XML-based formalism, called MultiX, allowing the multi-structured document serialization. We have also explored the multi-structured document exploitation in the information retrieval context. In order to allow efficient querying possibilities on MultiX documents, we have extended the XQuery language by developing a specific functions library. These functions allow a more efficient and easy exploration of the multi-structured documents encoded in the MultiX formalism. To validate our propositions we have implemented a specific framework which we have built around an implementation of the MSDM model.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (VII-155 p.)
  • Annexes : Bibliogr. p. [138]-145

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3125)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.