Thèse soutenue

Vers une prise en compte de plusieurs aspects des besoins d'information dans les modèles de la recherche documentaire : propagation de métadonnées sur le World Wide Web

FR  |  
EN
Auteur / Autrice : Camille Prime-Claverie
Direction : Jean-Jacques Girardot
Type : Thèse de doctorat
Discipline(s) : informatique, sciences de l'information et de la communication
Date : Soutenance en 2004
Etablissement(s) : Saint-Etienne, EMSE
Partenaire(s) de recherche : Autre partenaire : Université Jean Monnet (Saint-Étienne ; 1969-2025)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Dans cette thèse, qui s'inscrit dans le contexte général de la recherche d'information sur la Toile, nous abordons le problème de l'indexation (thématique et non thématique) des pages. En particulier, nous nous interessons à leur typologie. Nous proposons une méthode de caractérisation des pages comprenant deux étapes. La première, l'extraction de corpus homogènes, vise à rapprocher des pages partageant des caractéristiques communes. La seconde, l'affectation semi-automatique de métadonnées au sein de chaque corpus homogène, est basée sur la propagation : au départ, seule une faible proportion des ressources sont qualifiées manuellement, leurs informations sont ensuite propagées aux autres ressources. Au niveau méthodologique, l'extraction des corpus homogènes est fondée sur l'analyse des liens hypertextes. Plus précisément, elle utilise le principe de ''co-sitation''. Ce principe est la transposition sur le Web de la méthode des co-citations bien connue en scientométrie.