Filtrage, stockage et raisonnement sur de grands volumes de triplets RDF ordonnancés

par Jérémy Lhez

Thèse de doctorat en Informatique

Sous la direction de Olivier Curé.

Soutenue le 05-11-2018

à Paris Est , dans le cadre de École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....) , en partenariat avec Laboratoire d'informatique de l'Institut Gaspard Monge (laboratoire) et de Laboratoire d'Informatique Gaspard-Monge / LIGM (laboratoire) .

Le président du jury était Bernd Amann.

Le jury était composé de Olivier Curé.

Les rapporteurs étaient Hala Skaf, Myriam Lamolle.


  • Résumé

    Avec le développement et la multiplication des appareils connectés dans tous les domaines, de nouvelles solutions pour le traitement de flux de données ont vu le jour. Cette thèse s'inscrit dans ce contexte: elle a été réalisée dans le cadre du projet FUI Waves, une plateforme de traitement de flux distribués. Le cas d'usage pour le développement a été la gestion des données provenant d'un réseau de distribution d'eau potable, plus précisément la détection d'anomalie dans les mesures de qualité et leur contextualisation par rapport à des données extérieures. Plusieurs contributions ont été réalisées et intégrées à différentes étapes du projet, leur évaluation et les publications liées témoignant de leur pertinence. Celles-ci se basent sur une ontologie que j'ai spécifiée depuis des échanges avec les experts du domaine travaillant dans chez le partenaire métier du projet. L'utilisation de données géographiques a permis de réaliser un système de profilage visant à améliorer le processus de contextualisation des erreurs. Un encodage de l'ontologie adapté au traitement de flux de données RDF a été développé pour supporter les inférences de RDFS enrichis de owl : sameAs. Conjointement, un formalisme compressé de représentation des flux (PatBin) a été conçu et implanté dans la plateforme. Il se base sur la régularité des motifs des flux entrants. Enfin, un langage de requêtage a été développé à partir de ce formalisme. Il intègre une stratégie de raisonnement se basant sur la matérialisation et la réécriture de requêtes. Enfin, à partir de déductions provenant d'un d'apprentissage automatique, un outil de génération de requêtes a été implanté. Ces différentes contributions ont été évaluées sur des jeux de données concrets du domaine ainsi que sur des jeux d'essais synthétiques

  • Titre traduit

    Filtering, storage and reasoning on large volumes of RDF triples sequenced


  • Résumé

    With the developpement and the expansion of connected devices in every domain, several projects on stream processing have been developped. This thesis has been realized as part of the FUI Waves, a reasoning stream processing engine distributed. The use case for the developement was the processing of data streamed from a potable water distribution network, more specifically the detection of anomalies in the quality measures and their contextualisation using external data. Several contributions have been realized and integrated in different stages of the project, wih evaluations and publications witnessing their relevance. These contributions use an ontology that has been designed thanks to collaboration with domain experts working for our water data management project partner. The use of geographical data allowed to realize a profiling system aiming at improving the anomaly contextualisation process. An ontology encoding approach, adapted to RDF stream processing, has been developped to support RDFS inferences enriched with owl : sameAs. Conjointly, a compressed formalism (PatBin) has been designed to represent streams. PatBin is based on the regularity of patterns found in incoming streams. Moreover, a query language has been conceived from PatBin, namely PatBinQL. It integrates a reasoning strategy that combines both materialization and query rewritting. Finally, given deductions coming from a Waves machine learning component, a query generation tool has been developped. These diferent contributions have been evaluated on both real-world and synthetic datasets


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Communautés d’Universités et d'Etablissements Université Paris-Est. Bibliothèque universitaire.
  • Bibliothèque : École des Ponts ParisTech (Marne-la-Vallée, Seine-et-Marne). Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.