Génération de documents virtuels par intégration de relations entre documents structurés pour la recherche d’information

par Delphine Verbyst

Thèse de doctorat en Informatique

Sous la direction de Philippe Mulhem.

Soutenue en 2008

à l'Université Joseph Fourier (Grenoble) .

    mots clés mots clés


  • Résumé

    La recherche d'information sur des documents structurés tente de répondre de manière ciblée à une requête utilisateur en ne fournissant que des éléments de documents (doxels) pour satisfaire ce besoin d'information. Ce travail de thèse étudie l'apport de la caractérisation des relations (structurelles et non structurelles) entre parties de documents structurés dans ce contexte. Nous modélisons l'indexation des documents structurés en utilisant la structure et les relations entre doxels et nous caractérisons ces relations par des valeurs d'exhaustivité et de spécificité relatives. Le processus de recherche basé sur ces documents structurés génère des documents virtuels résultats, en spécifiant les liens pertinents entre les doxels. Le modèle est validé par des expérimentations sur la campagne d'évaluation INEX 2007 (600 000 documents Wikipedia, 100 requêtes) et les résultats obtenus montrent une amélioration de 24% en précision moyenne avec le modèle vectoriel.

  • Titre traduit

    Virtual documents generation through the integration of relations between structured documents for information retrieval


  • Résumé

    Information retrieval on structured documents attempts to answer in a precise way to a user request by providing only elements of documents (doxels) that satisfies this need for information. This thesis investigates the characterization of relations (structural and non-structural) between parts of structured documents in this context. We model structured documents indexing using the structure and relations between doxels and we characterize these relations by relative exhaustivity and specificity values. The querying process based on these structured documents generates virtual documents as results, indicating the relevant links between doxels. The model is validated through the evaluation campaign INEX 2007 data (600 000 documents Wikipedia, 100 requests) and the results show an improvement of 24% in average precision with the vector space mode!.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. ( p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS08/GRE1/0203/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS08/GRE1/0203
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.