Une approche algébrique pour la recherche d'information structurée

par Mohamed Ben Aouicha

Thèse de doctorat en Informatique

Sous la direction de Mohan Boughanem, Mohamed Abid et de Mohamed Tmar.

Soutenue en 2009

à Toulouse 3 .

  • Titre traduit

    ˜An œalgebraic approach for structured information retrieval


  • Pas de résumé disponible.


  • Résumé

    L'objectif principal d'un SRI classique est de retrouver les documents dont le contenu est conforme à une requête donnée. Dans cette optique, les documents sont représentés par un ensemble de mots-clés décrivant leurs contenus. La structure du document n'est pas prise en considération ni au niveau de la requête, ni au niveau de la réponse pour retourner les parties pertinentes : la réponse à une requête reste le document tout entier. Aujourd'hui, l'utilisation de l'information apportée par la structure devient une nécessité dans le domaine d'accès à l'information. Cette nécessité provient d'un type de document qui est très bien répandu sur Internet, utilisé comme un standard d'échange sur le Web : le langage XML (eXtensible Markup Langage) qui est utilisé comme format de données structurées sur le Web, et qui impose au SRI de retrouver des unités d'information qui ne sont pas nécessairement le document entier. L'appariement document/requête doit alors être réalisé d'une façon telle que les granules documentaires dont la structure présente de légères différences avec la structure de la requête reçoivent un score. Il peut également être vu comme l'inverse de l'effort nécessaire pour la construction incrémentale d'un arbre à partir d'un autre. Grâce à la flexibilité apportée par la phase d'indexation, nous avons défini un algorithme basé sur le principe de relaxation des requêtes, qui permet de comparer les arbres requête et documents et de retourner les sous arbres potentiellement pertinents. Selon les sous arbres retournés à chaque document, nous avons défini une fonction de ressemblance entre la requête et le document. Cette fonction est une agrégation du score provenant de la structure et celui provenant du contenu des documents XML traités. L'algorithme que nous proposons pour la comparaison d'arbres permet de localiser les sous arbres similaires à l'arbre représentant la requête. . .

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (168 p.)
  • Annexes : Bibliogr. p. 159-168

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2009TOU30009
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.