Thèse soutenue

Un modèle et une algèbre de pattern pour la représentation et l’interrogation de la complétude de l’information relative

FR  |  
EN
Auteur / Autrice : Fatma-Zohra Hannou
Direction : Bernd Amann
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/06/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : Christophe Marsala
Examinateurs / Examinatrices : Mohamed-Amine Baazizi, Ladjel Bellatreche, Laure Berti-Équille
Rapporteurs / Rapporteuses : Nicole Bidoit-Tollu, Dimitris Kotzinos

Résumé

FR  |  
EN

L'incomplétude des données est un problème majeur de qualité qui s'amplifie par la quantité croissante de données collectées par des sources peu fiables. L'évaluation de l'exhaustivité des données est cruciale pour déterminer leur qualité mais aussi la validité des réponses de requêtes qui en découlent. Dans le contexte de l'information relative, la complétude d'une base de données est évaluée en comparaison à une base référence. Nous apportons deux principales contributions à ce domaine: un modèle de motifs produisant des couvertures minimales résumant l’étendue des partitions de données complètes et manquantes, ainsi qu'une algèbre de motifs permettant de dériver des couvertures minimales pour l'analyse de la validité des réponses des requêtes. Ce modèle de motifs offre une opportunité intéressante pour réaliser de nombreuses applications, en particulier celles visant à améliorer la qualité des tâches affectées par les données manquantes. Nous adoptons une technique de réécriture de requêtes à base de règles pour imputer les réponses des requêtes d'agrégation manquantes ou présentant des valeurs incorrectes. Nous étudions également la généralisation de notre modèle de motifs pour effectuer la synthèse des fragments de données. Les résumés peuvent être interrogés pour analyser et comparer les fragments de données de manière synthétique et flexible.