Querying and extracting heterogeneous graphs from structured data and unstrutured content - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2012

Querying and extracting heterogeneous graphs from structured data and unstrutured content

Interroger et extraire des graphes hétérogènes à partir des données structurées et du contenu non structuré

Résumé

The present work introduces a set of solutions to extract graphs from enterprise data and facilitate the process of information search on these graphs. First of all we have defined a new graph model called the SPIDER-Graph, which models complex objects and permits to define heterogeneous graphs. Furthermore, we have developed a set of algorithms to extract the content of a database from an enterprise and to represent it in this new model. This latter representation allows us to discover relations that exist in the data but are hidden due to their poor compatibility with the classical relational model. Moreover, in order to unify the representation of all the data of the enterprise, we have developed a second approach which extracts from unstructured data an enterprise's ontology containing the most important concepts and relations that can be found in a given enterprise. Having extracted the graphs from the relational databases and documents using the enterprise ontology, we propose an approach which allows the users to extract an interaction graph between a set of chosen enterprise objects. This approach is based on a set of relations patterns extracted from the graph and the enterprise ontology concepts and relations. Finally, information retrieval is facilitated using a new visual graph query language called GraphVQL, which allows users to query graphs by drawing a pattern visually for the query. This language covers different query types from the simple selection and aggregation queries to social network analysis queries.
Ce travail introduit un ensemble de solutions pour extraire des graphes à partir des données de l'entreprise et pour aussi faciliter le processus de recherche d'information dans ces graphes. Premièrement, nous avons défini un nouveau modèle de données appelé SPIDER-Graph permettant de modéliser des objets complexes et de définir des graphes hétérogènes. Puis, nous avons développé un ensemble d'algorithmes pour extraire le contenu des bases de données de l'entreprise et les transformer suivant ce nouveau modèle de graphe. Cette représentation permet de mettre à jour des relations non explicites entre objets, relations existantes mais non visibles dans le modèle relationnel. Par ailleurs, pour unifier la représentation de toutes les données dans l'entreprise, nous avons développé, dans une deuxième approche, une méthode de constitution d’une ontologie d'entreprise contenant les concepts et les relations les plus importantes d'une entreprise, et ceci, à partir de l’extraction des données non structurés de cette même entreprise. Ensuite, après le processus d'extraction des différents graphes de données l'entreprise, nous avons proposé une approche qui permettent d'extraire des graphes d'interactions entre des objets hétérogènes modélisant l'entreprise. Cette approche permet d'extraire des graphes de réseaux sociaux ou des graphes d'interactions. Ensuite, nous avons proposé un nouveau langage d'interrogation visuel appelé GraphVQL ( Graph Visual Query Langauge) qui permet aux utilisateurs non experts de poser leurs requêtes visuellement sous forme de patron de graphe. Ce langage propose plusieurs types de requêtes de la simple sélection et agrégation jusqu'à l'analyse des réseaux sociaux. Il permet aussi d'interroger différent type de graphes SPIDER-Graph, RDF ou GraphML en se basant sur des algorithmes de pattern matching ou de translation des requêtes sous forme de SPARQL.

Domaines

Autre
Fichier principal
Vignette du fichier
Thesis.pdf (6.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-00740663 , version 1 (10-10-2012)

Identifiants

  • HAL Id : tel-00740663 , version 1

Citer

Rania Soussi. Querying and extracting heterogeneous graphs from structured data and unstrutured content. Other. Ecole Centrale Paris, 2012. English. ⟨NNT : 2012ECAP0030⟩. ⟨tel-00740663⟩
283 Consultations
1674 Téléchargements

Partager

Gmail Facebook X LinkedIn More