Thèse soutenue

Gestion des graphes de connaissances et streaming dans le contexte de l'edge computing
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Weiqin Xu
Direction : Olivier Curé
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/12/2021
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - LIGM - Laboratoire d'informatique Gaspard-Monge
Jury : Président / Présidente : Fatiha Saïs
Examinateurs / Examinatrices : Olivier Curé, Chan Le Duc, Philippe Calvez
Rapporteurs / Rapporteuses : Chan Le Duc

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Edge Computing propose de répartir le calcul et le stockage des données au plus près des sources de données d'origine. Cette technologie devient une tendance importante dans l'informatique. Ceci est principalement dû à l'émergence de l'Internet des objets et de son ensemble d'appareils compacts, eg. capteurs, actionneurs ou passerelles, dont les capacités de calcul et de stockage ne cessent de croître. Différente du Cloud Computing, qui cible les grands centres de données, la stratégie de distribution des calculs d'Edge Computing peut potentiellement réduire la pression du réseau et tirer pleinement parti de la puissance de calcul des périphériques du Edge computing.Afin de prendre en charge le traitement intelligent des données à la périphérie du réseau, une stratégie de représentation des connaissances est nécessaire. En 2021, les technologies appartenant au Web sémantique sont suffisamment matures et robustes pour apporter de l'intelligence à l'Edge computing. Ces technologies correspondent au modèle de données RDF (Resource Description Framework), aux langages d'ontologie RDFS (RDF Schema) et OWL (Web ontology Language) et à leurs services de raisonnement associés, le langage de requête SPARQL. La pierre angulaire d'une telle approche est un système de gestion de base de données RDF compatible avec les périphériques Edge. Cependant, la plupart des systèmes de base de données du type RDF sont conçus pour des serveurs puissants ou le Cloud Computing. Ces systèmes doivent, en partie, leur efficacité à des stratégies d'indexation coûteuses, c'est-à-dire basées sur des indices multiples.Dans le but de compresser les données RDF tout en maintenant la vitesse d'interrogation, nous utilisons abondamment les structures de données succinctes (SDS - Succinct Data Structure) pour bénéficier simultanément de sa compression de données et de sa vitesse élevée de récupération des données. Cela nous aide à obtenir un RDF store compact auto-indexé qui ne nécessite pas d'opération de décompression. Notre approche de traitement des requêtes est adaptée à notre agencement de stockage et aux opérations SDS standard, à savoir access, rank et select. Nous prouvons la capacité de notre approche par une évaluation approfondie.Afin d'aider à l'accélération du raisonnement RDFS, nous avons conçu notre système basé sur une stratégie d'encodage sémantique nommée LiteMat. Ce schéma d'encodage, qui a été développé et est maintenu par notre équipe de recherche, a été étendu dans cette thèse de doctorat pour prendre en charge l'héritage multiple, les propriétés transitives et inverses. Il étend ainsi le pouvoir expressif des ontologies adressées.Dans les cas d'utilisation réels de l'IoT, les données proviennent généralement en continu de capteurs ou d'actionneurs. Pour résoudre ce problème, une extension de SuccinctEdge a été conçue pour gérer ces données en streaming. Cette extension inclut une structure de données supplémentaire dans notre système de base de données RDF pour traiter les données numériques avec des agrégations temporelles et un processeur d'extension streaming-SPARQL adapté pour permettre l'interrogation des données de streaming. Avec l'aide de cette structure de données supplémentaire et du processeur de requêtes adapté, nous pouvons facilement interroger le graphe RDF dynamique par une requête streaming-SPARQL. Cependant, l'exécution d'une requête sur un graphe dynamique peut imposer de nombreuses recherches de graphe répétitives, ce qui peut fortement ralentir le système. Afin de résoudre ce problème, nous séparons une requête en une partie dynamique et une partie statique. Le résultat de la partie statique est calculé une seule fois et stocké pendant toute la durée du traitement continu de la requête