Vers une prise en compte de plusieurs aspects des besoins d'information dans les modèles de la recherche documentaire : propagation de métadonnées sur le World Wide Web

par Camille Prime-Claverie

Thèse de doctorat en informatique, sciences de l'information et de la communication

Sous la direction de Jean-Jacques Girardot.

Soutenue en 2004

à Saint-Etienne, EMSE , en partenariat avec Université Jean Monnet (Saint-Étienne) (autre partenaire) .


  • Résumé

    Dans cette thèse, qui s'inscrit dans le contexte général de la recherche d'information sur la Toile, nous abordons le problème de l'indexation (thématique et non thématique) des pages. En particulier, nous nous interessons à leur typologie. Nous proposons une méthode de caractérisation des pages comprenant deux étapes. La première, l'extraction de corpus homogènes, vise à rapprocher des pages partageant des caractéristiques communes. La seconde, l'affectation semi-automatique de métadonnées au sein de chaque corpus homogène, est basée sur la propagation : au départ, seule une faible proportion des ressources sont qualifiées manuellement, leurs informations sont ensuite propagées aux autres ressources. Au niveau méthodologique, l'extraction des corpus homogènes est fondée sur l'analyse des liens hypertextes. Plus précisément, elle utilise le principe de "co-sitation". Ce principe est la transposition sur le Web de la méthode des co-citations bien connue en scientométrie.

  • Titre traduit

    Towards a taking into account of several aspects of information needs in the models of the information retrieval : propagation of metadata on the World Wide Web.


  • Résumé

    In this thesis, which is part and parcel of the more general context of web information retrieval, we consider the issue of thematic and non thematic page indexation, with particular focus on page typology. We suggest a page characterization method in two steps. The first one, named homogeneous corpus extraction, aims at connecting several pages sharing similar features. The second one, called semi-automatic metadata assignment within each homogeneous corpus, is based on propagation : to begin with, only a small proportion of all ressources is manually qualified, ressources information is then propagated to other ressources. Methodologically, the homogeneous corpus extraction is grounded on hypertext link analysis. More precisely, it uses the "co-citation" principle. This principle is a Web transposition of the well-known scientometry co-citation method.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : VIII-172 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Ecole nationale supérieure des mines. Centre de documentation et d'information.
  • Disponible pour le PEB
  • Cote : 004.6 PRI
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.