Summary management in P2P systems

par Rabab Hayek

Thèse de doctorat en Informatique

Sous la direction de Patrick Valduriez et de Guillaume Raschia.

Soutenue en 2009

à Nantes .

  • Titre traduit

    Résumés de données dans les systèmes P2P


  • Résumé

    Le but de cette thèse est de contribuer au développement des techniques de localisation et de description de données dans des environnements P2P. Au niveau de la couche application, nous nous concentrons sur l’exploitatoin des sémantiques qui peuvent être capturées à partir des données partagées. Ces sémantiques peuvent améliorer l’efficacité de recherche, ainsi que permettre des requêtes complexes. A cet effet, nous présentons une technique originale d’indexation de données dans les systèmes P2P qui se base sur les résumés linguistiques. Nos résumés sont des vues synthétiques et multidimensionnelles qui supportent la localisation des données pertinentes en se basant sur leur contenu. Plus intéressant, ils fournissent des représentations intelligibles de données, qui peuvent renvoyer des réponses approximatives à des requêtes d’utilisateur. Au niveau de la couche réseau P2P, nous nous concentrons sur l’exploitation des caractéristiques de la topologie, à savoir les caractéristiques de leur regroupement (clustering). Des informations sur le clustering du réseau P2P peuvent être utilisées pour réduire le trafic de réseau produit par le mécanisme de flooding. Ceci permet d’améliorer l’exécution des systèmes P2P, indépendamment de l’emploi des index de données à la couche application, puisque le mécanisme de flooding représente toujours un bloc constitutif fondamental des systèmes non structurés P2P. Dans cette thèse, nous présentons un bref état de l’art sur les systèmes P2P de partage de données P2P et nous nous concentrons sur l’évolution des systèmes simples de partages des fichiers vers des systèmes de gestion des données. En second lieu, nous proposons une solution pour la gestion des résumés de données dans des systèmes P2P. Nous définissons un modèle approprié et des techniques efficaces pour la création et la mise à jour des résumés. Nous discutons également le traitement des requêtes dans le cadre des résumés. Troisièmement, nous proposons une technique de recherche basée sur clustering implémentée au dessus d’un protocole de custering selon la connectivité des noeuds. Nous nous concentrons sur la réduction des messages de requêtes redondants qui surchargent inutilement le système. Nous avons validé nos solutions par la simulation et les résultats montrent une bonne performance


  • Résumé

    The goal of this thesis is to contribute to the development of data localization and summarization techniques in P2P environments. At the application layer, we focus on exploiting the semantics that can be captured from the shared data. These semantics can improve the search efficiency, and allow for more query facilities. To this end, we introduce a novel data indexing technique into P2P systems that relies on linguistic summarization. Our summaries are synthetic, multidimensional views that support locating relevant data based on their content. More interestingly, they provide intelligible data representations which may return approximate answers for user queries. At the P2P network layer, we focus on exploiting the characteristics of the overlay topology, namely its clustering features, in order to reduce the traffic overhead generated by flooding-based mechanisms. This allows to improve the performance of P2P systems, irrespective of the employment of techniques relying on data semantics at the application layer. To this end, we define a cluster-based search technique which is implemented over a connectivity-based clustering protocol. A connectivity-based clustering protocol aims to discover the natural organization of nodes, based on their connectivity. Thus, it delimits the boundaries of non-overlapping subgraphs (i. E. Clusters) which are loosely connected, and in which nodes are highly connected. In this thesis, we first survey P2P data sharing systems. We focus on the evolution from simple file-sharing systems with limited functionalities, to Peer Data Management Systems (PDMSs) that support advanced applications with more sophisticated data management techniques. Second, we propose a solution for managing linguistic summaries in P2P systems. We define an appropriate summary model and efficient techniques for summary creation and maintenance. We also discuss query processing in the context of summaries. Third, we propose a cluster-based search technique on top of existing connectivity-based clustering protocols. We focus on reducing redundant query messages which unnecessarily overload the system. We validated our solutions through simulation and the results show good performance

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (152 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 141-152

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 2009 NANT 2066
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.