Un modèle d'exploration contextuelle du contenu des documents textuels : conception et réalisation d'un système informatique SEMANTEXT de filtrage et de structuration des textes

par Slim Ben Hazez

Thèse de doctorat en Informatique et communication

Sous la direction de Jean-Pierre Desclès.

Soutenue en 2002

à Paris 4 .


  • Résumé

    Le travail présenté dans cette thèse se focalise sur le développement de technique d'accès aux information textuelles selon différents points de vue. Dans cette optique, nous proposons un modèle un modèle en trois niveaux d'exploration contextuelle du contenu des textes. Ce modèle à pour bue de décrire d'une manière compacte et intuitive des données linguistiques et des opérations premier niveau est constitué d'un langage de description de motifs linguistiques. Le deuxième propose une algèbre d'expressions de repérage contextuel (ou ERC). Le dernier consiste en un langage de description de règles d'exploration contextuelle. Ces composants permettent de décrire divers phénomène linguistiques et textuels de surface et de spécifier des opérations de sélection qui portent sur différents niveaux d'organisation du texte. Ils forment le noyau de bases du système SEMAN'TEXT dont l'architecture s'articule autour d'un modèle dynamique du texte représenté sous forme d'un graphe décoré. L'architecture adoptée permet de réaliser et de mettre en interaction plusieurs tâches d'extraction. Ce travail s'appuie sur notre première expérience dans le développement du système CONTEXTO.

  • Titre traduit

    A model for contextual exploration of textual documents : design and implementation of a system SEMANTEXT used for text searching and structuring


  • Résumé

    This work outlines the development of technical means to research textual data from several point of view. In this framework, we propose a model with three levels of contextual exploration of content of textual documents. This models aims to describe linguistic data and textual operations which are dedicated to several extracting and labelling tasks of textual objects. The first level is a linguistic pattern matching language. The second one puts forward an algebra of describing expressions of contextual text searching. The last one is a language of contextual exploration rules. These components provide means to describe several linguistic and textual shallow regularities and to specify operations of contextual text searching. These components are the kermel of SEMAN'TEXT. The architecture of semantext permits the development and the interaction of several extracting tasks through a dynamic text model (represented by a decorated graph). This work relies on my first study acquired in the framework of the design of CONTEXTO.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (316 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 158 références bibliographiques

Où se trouve cette thèse ?

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 5469
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.