A Pattern Model and Algebra for Representing and Querying Relative Information Completenes

par Fatma-Zohra Hannou

Thèse de doctorat en Informatique

Sous la direction de Bernd Amann.

Le président du jury était Christophe Marsala.

Le jury était composé de Mohamed-Amine Baazizi, Ladjel Bellatreche, Laure Berti-Équille.

Les rapporteurs étaient Nicole Bidoit-Tollu, Dimitris Kotzinos.

  • Titre traduit

    Un modèle et une algèbre de pattern pour la représentation et l’interrogation de la complétude de l’information relative


  • Résumé

    L'incomplétude des données est un problème majeur de qualité qui s'amplifie par la quantité croissante de données collectées par des sources peu fiables. L'évaluation de l'exhaustivité des données est cruciale pour déterminer leur qualité mais aussi la validité des réponses de requêtes qui en découlent. Dans le contexte de l'information relative, la complétude d'une base de données est évaluée en comparaison à une base référence. Nous apportons deux principales contributions à ce domaine: un modèle de motifs produisant des couvertures minimales résumant l’étendue des partitions de données complètes et manquantes, ainsi qu'une algèbre de motifs permettant de dériver des couvertures minimales pour l'analyse de la validité des réponses des requêtes. Ce modèle de motifs offre une opportunité intéressante pour réaliser de nombreuses applications, en particulier celles visant à améliorer la qualité des tâches affectées par les données manquantes. Nous adoptons une technique de réécriture de requêtes à base de règles pour imputer les réponses des requêtes d'agrégation manquantes ou présentant des valeurs incorrectes. Nous étudions également la généralisation de notre modèle de motifs pour effectuer la synthèse des fragments de données. Les résumés peuvent être interrogés pour analyser et comparer les fragments de données de manière synthétique et flexible.


  • Résumé

    Information incompleteness is a major data quality issue which is amplified by the increasing amount of data collected from unreliable sources. Assessing the completeness of data is crucial for determining the quality of the data and the validity of query answers.In this work, we tackle the issue of extracting and reasoning about complete and missing information under relative information completeness setting. Under this setting, the completeness of a dataset is assessed with respect to a complete reference dataset. We advance the field by proposing two contributions: a pattern model for providing minimal covers summarizing the extent of complete and missing data partitions and a pattern algebra for deriving minimal pattern covers for query answers to analyze their validity.The completeness pattern framework presents an intriguing opportunity to achieve many applications, particularly those aiming at improving the quality of tasks impacted by missing data. Data imputation is a well-known technique for repairing missing data values but can incur a prohibitive cost when applied to large data sets. Query-driven imputation offers a better alternative as it allows for We adopt a rule-based query rewriting technique for imputing the answers of aggregation queries that are missing or suffer from incorrectness due to data incompleteness. We present a novel query rewriting mechanism that is guided by the completeness pattern model and algebra.We also investigate the generalization of our pattern model for summarizing any data fragments. Summaries can be queried to analyze and compare data fragments in a synthetic and flexible way.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque des thèses électroniques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.