Thèse soutenue

Filtrage, stockage et raisonnement sur de grands volumes de triplets RDF ordonnancés

FR  |  
EN
Auteur / Autrice : Jérémy Lhez
Direction : Olivier Curé
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/11/2018
Etablissement(s) : Paris Est
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'Informatique Gaspard-Monge / LIGM
Jury : Président / Présidente : Bernd Amann
Examinateurs / Examinatrices : Olivier Curé
Rapporteurs / Rapporteuses : Hala Skaf, Myriam Lamolle

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Avec le développement et la multiplication des appareils connectés dans tous les domaines, de nouvelles solutions pour le traitement de flux de données ont vu le jour. Cette thèse s'inscrit dans ce contexte: elle a été réalisée dans le cadre du projet FUI Waves, une plateforme de traitement de flux distribués. Le cas d'usage pour le développement a été la gestion des données provenant d'un réseau de distribution d'eau potable, plus précisément la détection d'anomalie dans les mesures de qualité et leur contextualisation par rapport à des données extérieures. Plusieurs contributions ont été réalisées et intégrées à différentes étapes du projet, leur évaluation et les publications liées témoignant de leur pertinence. Celles-ci se basent sur une ontologie que j'ai spécifiée depuis des échanges avec les experts du domaine travaillant dans chez le partenaire métier du projet. L'utilisation de données géographiques a permis de réaliser un système de profilage visant à améliorer le processus de contextualisation des erreurs. Un encodage de l'ontologie adapté au traitement de flux de données RDF a été développé pour supporter les inférences de RDFS enrichis de owl : sameAs. Conjointement, un formalisme compressé de représentation des flux (PatBin) a été conçu et implanté dans la plateforme. Il se base sur la régularité des motifs des flux entrants. Enfin, un langage de requêtage a été développé à partir de ce formalisme. Il intègre une stratégie de raisonnement se basant sur la matérialisation et la réécriture de requêtes. Enfin, à partir de déductions provenant d'un d'apprentissage automatique, un outil de génération de requêtes a été implanté. Ces différentes contributions ont été évaluées sur des jeux de données concrets du domaine ainsi que sur des jeux d'essais synthétiques