Extraction et formalisation de la sémantique des liens hypertextes dans des documents culturels, scientifiques et techniques

par Moustafa Al-Hajj

Thèse de doctorat en Informatique

Sous la direction de Hubert Cardot et de Gilles Verley.

Soutenue en 2007

à Tours .


  • Résumé

    The use of hypertext links on the web makes sites more attractive and easier to read and allows enrichment of sites by information coming from other sites. However, this links produce some difficulties for readers and search engines. The hypertext links are carrying semantic information which, if it were completely formalized, would be exploitable by programs to improve navigation and research of information, and would take its place in the emergence of semantic web. In this thesis, we propose an original methodology for the formal semantic extraction of hypertext links. The suggested method has been tested on the links of a corpus. The formalism RDF has been used to represent the link semantics. Ontology for the links specific to the field of biographies of famous people was made up starting from the link semantics extracted and then represented in RDFS. Some tools of supervised learning and of web pages characterization by keywords has been used to help with the formal extraction of semantics.

  • Titre traduit

    Extraction and formalization of the semantics of hypertext links in cultural, scientific and technical document


  • Résumé

    L'utilisation des liens hypertextes sur internet rend les sites plus attractifs et plus faciles à lire et permet l'enrichissement des sites par des informations provenant d'autres sites. Cependant, ces mêmes liens entraînent des difficultés pour les lecteurs et les moteurs de recherche. Les liens hypertextes sont porteurs d'informations sémantiques qui, si elles étaient complètement formalisées, seraient exploitables par des programmes pour améliorer la navigation et la recherche d'information, et prendraient leur place dans l'émergence du web sémantique. Dans cette thèse, nous proposons une méthodologie originale d'extraction formelle de la sémantique des liens hypertextes. La méthode proposée a été testée sur les liens d'un corpus. Le formalisme RDF est utilisé pour représenter la sémantique des liens. Une ontologie pour les liens spécifiques au domaine des biographies de personnages célèbres a été constituée à partir de la sémantique extraite des liens. Celle-ci a été représentée en RDFS. Des outils d'apprentissage supervisé et de caractérisation des pages web par des mots clés sont utilisés pour aider à l'extraction formelle de la sémantique.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (133 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 104-113. Publications de l'auteur p. 103.

Où se trouve cette thèse ?

  • Bibliothèque : Université François Rabelais. Service commun de la documentation. Section Sciences-Pharmacie.
  • Disponible pour le PEB
  • Cote : TS-2007-TOUR-4023
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Accessible pour le PEB
  • Cote : DI-TH-746
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.