Gestion des grandes masses de données dans les graphes réels

par Imen Ben Dhia

Thèse de doctorat en Informatique et réseaux

Sous la direction de Talel Abdessalem et de Mauro Sozio.

Le président du jury était Christian Dan Vodislav.

Le jury était composé de Amélie Marian, Cédric Du Mouza.

Les rapporteurs étaient Bénédicte Le Grand, Amélie Marian.


  • Résumé

    De nos jours, un grand nombre d’applications utilisent de grands graphes pour la modélisation de données du monde réel. Nous avons assisté, ces dernières années, à une très rapide croissance de ces graphes dans divers contextes ; à savoir, les réseaux sociaux, la bioinformatique, le web sémantique, les systèmes de gestion des données géographiques, etc. La gestion, l’analyse et l’interrogation de ces données constituent un enjeu très important et ont suscité un vaste intérêt dans la communauté des Bases de Données. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’indexation et l’interrogation des données dans les grands graphes. Nous avons proposé EUQLID, une technique d’indexation qui permet de répondre efficacement aux requêtes de calcul de distance dans les grands graphes orientés. L’efficacité de cette technique est dûe au fait qu’elle exploite des propriétés intéressantes des graphes du monde réel. En effet, nous proposons un algorithme basé sur une variante efficace du fameux algorithme 2-hop. Les résultats obtenus montrent que notre algorithme surpassent les approches existantes en terme de temps d’indexation, ainsi qu’en temps de réponse. En effet, il permet de calculer la distance entre deux noeuds en quelques centaines de millisecondes sur de très grands graphes. Nous proposons également un modèle de contrôle d’accès pour les réseaux sociaux qui permet aux utlisateurs de spécifier leurs poltiques de contrôle d’accès en se basant sur leurs relations sociales, et qui peut utiliser EUQLID pour passer à l’échelle. Nous décrivons Primates comme étant un prototype appliquant le modèle proposé.

  • Titre traduit

    Large-scale data management in real-world graphs


  • Résumé

    In the last few years, we have been witnessing a rapid growth of networks in a wide range of applications such as social networking, bio-informatics, semantic web, road maps, etc. Most of these networks can be naturally modeled as large graphs. Managing, analyzing, and querying such data has become a very important issue, and, has inspired extensive interest within the database community. In this thesis, we address the problem of efficiently answering distance queries in very large graphs. We propose EUQLID, an efficient algorithm to answer distance queries on very large directed graphs. This algorithm exploits some interesting properties that real-world graphs exhibit. It is based on an efficient variant of the seminal 2-hop algorithm. We conducted an extensive set of experiments against state-of-the-art algorithms which show that our approach outperforms existing approaches and that distance queries can be processed within hundreds of milliseconds on very large real-world directed graphs. We also propose an access control model for social networks which can make use of EUQLID to scale on very large graphs. This model allows users to specify fine-grained privacy policies based on their relations with other users in the network. We describe and demonstrate Primates as a prototype which enforces the proposed access control model and allows users to specify their privacy preferences via a graphical user-friendly interface.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.