Reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés

par Lobna Hlaoua

Thèse de doctorat en Informatique

Sous la direction de Mohan Boughanem.

Soutenue en 2007

à Toulouse 3 .

  • Titre traduit

    Queries reformulation the relevance feedback in semi-structured documents


  • Pas de résumé disponible.


  • Résumé

    Les travaux de cette thèse s'intéressent à la reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés de type XML, en utilisant différentes sources d'évidences (le contenu et la structure). Nous proposons de réinjecter les termes pertinents sélectionnés selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons appliqué la réinjection de la pertinence négative en introduisant le facteur bruit pour la sélection des termes pertinents. Une autre source d'évidence que nous avons aussi utilisée est l'information structurelle. Nous traduisons ainsi la notion de structure pertinente, dont l'existence est prouvée grâce à une étude empirique. Nous proposons l'algorithme Smallest Common Ancestor (SCA) pour l'extraction des structures pertinentes dans des collections homogènes. Nous proposons aussi un processus permettant d'extraire des structures pertinentes dans le cas des collections hétérogènes. Nous proposons également de faire cohabiter les deux sources d'évidence (contenu et structure) dans une approche combinée. Nous proposons trois méthodes de combinaison : combinaison "naïve", combinaison avec dépendance contextuelle et combinaison flexible. Quelle que soit l'approche proposée, la réécriture de la requête est formalisée selon une grammaire. L'ensemble de ces méthodes a été appliqué pour les deux types de requêtes structurées et non structurées. Les résultats montrent l'intérêt des deux approches proposées (réinjection de contenu et réinjection de structures), la combinaison des deux sources d'évidence permet également d'améliorer les performances.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (196 p.)
  • Annexes : Bibliogr. p. 181-196

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2007TOU30205
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.