Design, formalization and implementation of overlay networks : application to RDF data storage

par Francesco Bongiovanni

Thèse de doctorat en Informatique

Sous la direction de Françoise Baude et de Fabrice Huet.

Soutenue en 2012

à Nice .

  • Titre traduit

    Conception, formalisation et implémentation de réseaux de recouvrement, application au stockage de données RDF


  • Résumé

    Structured Overlay Networks (SONs) are a new class of Peer-to-Peer (P2P) systems which are widely used for large scale applications such as file sharing , information dissemination, storage and retrieval of different resources… Many different SONs co-exist on the Web yet they do not cooperate with each other. In order to promote cooperation, we propose two protocols, Babelchord and Synapse, whose goals are to enable the inter-connection of structured and heterogeneous overlays networks through meta-protocols. Babelchord aims to aggregate small structured overlay networks in an unstructured fashion while Synapse generalizes this concept and provides flexible mechanisms relying on co-located nodes, i. E. Nodes which belong to multiple overlays at the same time. We provides the algorithms behind both protocols, as well as simulations results showing their behaviours in the context of information retrieval. We have also implemented and experimented a prototype of JSynapse on the Grid’5000 platform, confirming the obtained simulation results and giving a proof of concept of our protocol. A novel generation of SONs was created in order to store and retrieve semantic data in large scale settings. The Semantic Web community is in need for scalable solutions which are able to store and retrieve RDF data, the core data model of the Semantic Web. The first generation of these systems is too monolithic and provided limited support for expressive queries. We propose the design and implementation of a new modular P2P-based system for these purposes. We build the system with RDF in mind and used a three-dimensional CAN overlay network, mimicking the nature of an RDF triple. We made specific design choices which preserve data locality but raises interesting technical challenges. Our modular design reduces the coupling between its underlying components, allowing them to be inter-changed with others. We also ran some micro-benchmarks on Grid’50000 which will be discussed. SONs have a specific geometrical topology which could be leveraged in order to increase the overall performance of the system. In this regard we propose a new broadcast efficient algorithm for CAN, developed in response to the results found from running the experiments in the RDF data store we have built, which used too many messages. Along this algorithm, we also propose a reasoning framework, developed with the Isabelle/HOL proof assistant, for proving correctness properties of dissemination algorithms for CAN-like P2P-systems. We focus on providing the minimal set of abstractions needed to devise efficient correct-by-construction dissemination algorithms on top of such overlay.


  • Résumé

    Les réseaux de recouvrement structurés sont une nouvelle classe de systèmes Pair-à-pair (P2P), qui sont utilisés pour des applications à grande échelle telles que le partage de fichiers, diffusion de l’information ; le stockage et la récupération des différentes ressources… Beaucoup de ces réseaux coexistent sur le Web mais ne coopèrent pas. Afin de promouvoir la coopération, nous proposons deux protocoles, Babelchord et Synapse, dont les objectifs sont de permettre l’interconnexion de réseaux de recouvrement structurés et hétérogènes grâce à des méta-protocoles. Babelchord vise à regrouper les petits réseaux de recouvrement structurés d’une manière non structurée , tandis que Synapse généralise ce concept et prévoit des mécanismes souples reposant sur des nœuds co-localisés, à savoir des nœuds qui appartiennent à plusieurs réseaux en même temps. Nous fournissons les algorithmes derrière ces deux protocoles, ainsi que les résultats des simulations montrant leurs comportements dans le contexte de recherche d’information. Nous avons également développé et expérimenté un prototype de JSynapse sur la plate-forme Grid’50000, confirmant les résultats de simulation obtenus. Une nouvelle génération de ces réseaux fut créée afin de stocker et de récupérer des données sémantiques dans des contextes à larges échelles. En effet, la communauté du Web sémantique a besoin de solutions capables de stocker et récupérer des données RDF, le modèle de données au centre du Web sémantique, passant à l’échelle. La première génération de ces systèmes est monolithique et fournit un support limité pour les requêtes expressives. Nous proposons la conception et l’implémentation d’un système modulaire basé sur du P2P afin de répondre à ces besoins. Nous l’avons construit avec RDF à l’esprit et avons utilisé une infrastructure à trois dimensions, reflétant la nature d’un triplet RDF. Nous avons également fait des choix de design qui permettent de préserver la localité des données mais qui soulèvent des challenges techniques intéressants. Notre conception modulaire réduit le couplage entre les composants formant l’infrastructure et peuvent donc être inter-changé avec d ‘autres. Nous avons expérimenté notre implémentation sur Grid’5000 et présentons les résultats de micro-benchmarks. Enfin, nous nous sommes intéressés de plus près aux performances de ces réseaux. En effet, ils ont une topologie géométrique spécifique qui peut être exploitée de manière à augmenter les performances des applications tournant au-dessus. A cet effet, nous proposons un algorithme de diffusion pour CAN qui est efficace en termes de messages échangés dans le réseau. Cet algorithme a été mis au point en réponse aux résultats trouvés au cours des expériences de notre infrastructure de stockage de données RDF. En parallèle de cet algorithme, nous proposons également un cadre de raisonnement, développé avec l’assistant de preuve Isabelle/HOL, afin de prouver des propriétés d’exactitudes des algorithmes de diffusion pour des réseaux à la CAN. Nous nous sommes concentrés, sur l’ensemble minimal d’abstractions nécessaires afin de concevoir des algorithmes de diffusion efficaces corrects par construction au-dessus de réseaux comme CAN.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xii-123 p.)
  • Annexes : Bibliogr. p. 109-120. Résumés en anglais et en français. Glossaire

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque Sciences.
  • Non disponible pour le PEB
  • Cote : 12NICE4021
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.