Un modèle de recherche d'information agrégée basée sur les réseaux bayésiens dans des documents semi-structurés

par Najeh Naffakhi

Thèse de doctorat en Image, information, hypermédia

Sous la direction de Mohand Boughanem et de Rim Faiz.

Soutenue en 2013

à Toulouse 3 en cotutelle avec l'Université de Tunis .


  • Résumé

    Nous proposons un modèle de recherche d'information basé sur les réseaux bayésiens. Dans ce modèle, la requête de l'utilisateur déclenche un processus de propagation pour sélectionner les éléments pertinents. Dans notre modèle, nous cherchons à renvoyer à l'utilisateur un agrégat au lieu d'une liste d'éléments. En fait, l'agrégat formulé à partir d'un document est considéré comme étant un ensemble d'éléments ou une unité d'information (portion d'un document) qui répond le mieux à la requête de l'utilisateur. Cet agrégat doit répondre à trois aspects à savoir la pertinence, la non-redondance et la complémentarité pour qu'il soit qualifié comme une réponse à cette requête. L'utilité des agrégats retournés est qu'ils donnent à l'utilisateur un aperçu sur le contenu informationnel de cette requête dans la collection de documents. Afin de valider notre modèle, nous l'avons évalué dans le cadre de la campagne d'évaluation INEX 2009 (utilisant plus que 2 666 000 documents XML de l'encyclopédie en ligne Wikipédia). Les expérimentations montrent l'intérêt de cette approche en mettant en évidence l'impact de l'agrégation de tels éléments.

  • Titre traduit

    A model on aggregated search based on bayesian networks in semi-structured documents


  • Résumé

    The work described in this thesis are concerned with the aggregated search on XML elements. We propose new approaches to aggregating and pruning using different sources of evidence (content and structure). We propose a model based on Bayesian networks. The dependency relationships between query-terms and terms-elements are quantified by probability measures. In this model, the user's query triggers a propagation process to find XML elements. In our model, we search to return to the user an aggregate instead of a list of XML elements. In fact, the aggregate made from a document is considered an information unit (or a portion of this document) that best meets the user's query. This aggregate must meet three aspects namely relevance, non-redundancy and complementarity in order to answer the query. The value returned aggregates is that they give the user an overview of the information need in the collection.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (129 p.)
  • Annexes : Bibliogr. p. 113-129

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2013 TOU3 0054
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.