Les logiques de descriptions pour le traitement intelligent de données textuelles dans le projet Escrire

par Rim Alhelou

Thèse de doctorat en Informatique

Sous la direction de Amedeo Napoli.


  • Résumé

    L'exploitation de la masse d'information disponible sur le Web et dans les bases de données documentaires nécessite de concevoir des techniques efficaces de recherche, d'extraction et d'interrogation. Pour cela, il faut pouvoir disposer d'une représentation sémantique du contenu des docuemnts considérés. Une des solutions apportées à l'heure actuelle à ce problème de représentation de la sémantique d'un document électronique consiste à exploiter des ontologies du domaine des documents pour traiter les problèmes ci-dessus en fonction du contenu des documents. Dans ce contexte, les formalismes de représentation de connaissances sont de bons candidats pour la représentation des contenus des documents. Les contributions majeures de notre travail de thèse portent sur l'étude et la mise en oeuvre des logiques de descriptions pour le traitement des données textuelles, au niveau de la représentation des connaissances du domaine, de la manipulation des individus, du traitement des requêtes, et de l'interaction avec l'univers du langage XML. Ces travaux ont débouché sur l'implantation d'un système opérationnel qui utilise les logiques de descriptions pour la représentation de l'ontologie du domaine, pour la représentation des annotations du contenu des documents et pour l'évaluation des requêtes formées sur le contenu des documents. Cette étude et l'implantation associée nous ont amenés à proposer une architecture en couches pour le Web sémantique, qui se propose de fournir des plans de travail pour tirer parti des avantages de chacun des éléments en jeu dans la plate-forme. Un certain nombre de développements et perspectives peuvent être envisagés dans le cadre d'une telle architecture, et en particulier, la mise au point et l'exploitation de mesures de similarité entre documents, qui se définissent par rapport au contenu, pour mener à bien et à terme un raisonnement à partir de cas dans le cadre sur le contenu des documents.


  • Résumé

    The manipulation of the huge volume of documents available on the Web requires the design of efficient techniques of information retrieval, extraction and querying. For solving such problems, it is necessary to be able to deal with a semantic representation of the content of documents. Domain ontologies can be used for representation of the semantic of the content of documents. These ontologies can be themselves represented within knowledge representation formalisms. The main contribution of the research work presented in this thesis holds on the use of description logics for the manipulation of textual documents : interaction with XML description of documents, document annotation, representation of ontologies in the domain of documents, et datisfaction of queries on documents. This research work has led to the design of a prototype system based on description logics. This study and the associated implemented system has led us to propose a multi-layered architecture for manipulating textual documents for the semantic Web. A final aspectof this research work relies on the definition of a similarity mesure on document that can be used in a number of applications by similarity, and querying documents by similarity.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 158 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 151-158

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Disponible pour le PEB
  • Cote : SC N2003 163
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.