Modélisation, indexation et recherche de documents structurés

par Franck Fourel

Thèse de doctorat en Sciences et techniques communes

Sous la direction de Marie-France Bruandet.

Soutenue en 1998

à l'Université Joseph Fourier (Grenoble) .

    mots clés mots clés


  • Résumé

    Les systèmes actuels de recherche de documents électroniques, que ce soit des systèmes de gestion de bases de données ou des systèmes de recherche d'informations, n'exploitent pas suffisament la richesse des documents. Les uns n'analysent pas le contenu du document et se laissent diriger par la structure du document alors que les autres délaissent l'aspect structurel en s'appuyant sur des méthodes trop peu adaptées aux nouvelles caractéristiques de ces documents. Le but de notre travail, situé à l'intersection de ces deux types de systèmes, est de réconcilier les différentes modalités d'accès aux documents électroniques et de rendre accessible tout document ou toute partie de documents qui peut résoudre le problème d'informations d'un utilisateur. Notre travail comporte plusieurs phases: la définition de modèles de représentation des documents structurés ainsi que de leurs composantes monomédias et multimédias (texte et image fixe) et la mise en place d'un processus d'indexation structurelle support du processus d'interrogation. Le modèle de représentation des documents structurés s'articule autour de trois relations de structure que nous avons particulièrement identifiées dans les documents textuels : la relation de composition, la relation de séquence et la relation de référence. Elles établissent l'organisation syntaxique des parties des documents, appelées éléments de structure, qui comme nous le montrons, possède une organisation duale, la structure sémantique. Nous exploitons les caractéristiques de cette dernière pour définir des propriétés sur les descripteurs des éléments de structure. Ces propriétés sont formalisées dans la notion de portées des attributs et dans la classification des attributs qui s'en suit. Pour chaque attribut d'un élément de structure, sa portée indique quels sont les autres éléments concernés par l'attribut et par sa valeur. C'est en suivant les relations de structure que nous retrouvons les éléments concernés, puis nous leur assignons un attribut et une valeur dépendante de la valeur de l'attribut de l'élément qui est à la source de l'information. L'application des portées fournit une représentation du document au sein de laquelle les informations, si elles ne sont pas modifiées, sont mieux réparties et pour laquelle la plupart des informations sont explicitées pour chaque élément de structure et sont rendues dépendantes les unes des autres. Le processus d'interrogation utilise ces dépendances pour retrouver le ou les éléments de structure pertinents d'un document. Nous avons validé ce travail par le développement du prototype my Personal Daily News qui permet d'interroger des quotidiens d'informations en mêlant dans les requêtes des critères structurels et des critères de contenu. Nous montrons ainsi que notre approche rend des éléments accessibles et augmente la flexibilité d'interrogation en autorisant une connaissance imparfaite de la structure des documents


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (X-299 p.)
  • Annexes : Bibliogr. p. 259-268. Index

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Bibliothèque : Moyens Informatiques et Multimédia. Information.
  • Disponible pour le PEB
  • Cote : IMAG-1998-FOU
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.