Indexation pour la recherche par le contenu textuel de flux RSS.

par Zeinab Hmedeh

Thèse de doctorat en Informatique

Sous la direction de Cédric Du Mouza et de Nicolas Travers.

Le président du jury était Dominique Laurent.

Le jury était composé de Cédric Du Mouza, Nicolas Travers, Dominique Laurent, Christine Collet, David Gross-Amblard, Amann Brend.

Les rapporteurs étaient Christine Collet, David Gross-Amblard.


  • Résumé

    Afin de réduire l’intervalle de temps nécessaire entre la publication de l’information sur le Web et sa consultation par les utilisateurs, les sites Web reposent sur le principe de la Syndication Web. Les fournisseurs d’information diffusent les nouvelles informations à travers des flux RSS auxquels les utilisateurs intéressés peuvent s’abonner. L’objectif de la thèse est de proposer un système de notification passant à l’échelle du Web, prenant en considération le grand nombre d’utilisateurs et le débit élevé d’items. Nous proposons un index basé sur les mots-clés des requêtes utilisateurs permettant de retrouver ceux-ci dans les items des flux. Trois structures d’indexation de souscriptions sont présentées. Un modèle analytique pour estimer le temps de traitement et l’espace mémoire de chaque structure est détaillé. Nous menons une étude expérimentale approfondie de l’impact de plusieurs paramètres sur ces structures. Pour les souscriptions jamais notifiées, nous adaptons les index étudiés pour prendre en considération leur satisfaction partielle. Afin de réduire le nombre d’items reçus par l’utilisateur, nous intégrons une deuxième phase de filtrage par nouveauté et diversité considérant l’ensemble d’items déjà reçus par l’utilisateur.

  • Titre traduit

    Indexing by content in RSS systems.


  • Résumé

    Based on a Publish/Subscribe paradigm, Web Syndication formats such as RSS have emerged as a popular means for timely delivery of frequently updated Web content. According to these formats, information publishers provide brief summaries of the content they deliver on the Web, while information consumers subscribe to a number of RSS feeds and get informed about newly published items. The goal of this thesis is to propose a notification system which scales on the Web. To deal with this issue, we should take into account the large number of users on the Web and the high publication rate of items. We propose a keyword-based index for user subscriptions to match it on the fly with incoming items. We study three indexing techniques for user subscriptions. We present analytical models to estimate memory requirements and matching time. We also conduct a thorough experimental evaluation to exhibit the impact of critical workload parameters on these structures. For subscriptions which are never notified, we adapt the indexes to support a partial matching between subscriptions and items. We integrate a diversity and novelty filtering step in our system in order to decrease the number of notified items for short subscriptions. This filtering is based on the set of items already received by the user.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.