A Pattern Model and Algebra for Representing and Querying Relative Information Completenes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

A Pattern Model and Algebra for Representing and Querying Relative Information Completenes

Un modèle et une algèbre de pattern pour la représentation et l’interrogation de la complétude de l’information relative

Résumé

Information incompleteness is a major data quality issue which is amplified by the increasing amount of data collected from unreliable sources. Assessing the completeness of data is crucial for determining the quality of the data and the validity of query answers.In this work, we tackle the issue of extracting and reasoning about complete and missing information under relative information completeness setting. Under this setting, the completeness of a dataset is assessed with respect to a complete reference dataset. We advance the field by proposing two contributions: a pattern model for providing minimal covers summarizing the extent of complete and missing data partitions and a pattern algebra for deriving minimal pattern covers for query answers to analyze their validity.The completeness pattern framework presents an intriguing opportunity to achieve many applications, particularly those aiming at improving the quality of tasks impacted by missing data. Data imputation is a well-known technique for repairing missing data values but can incur a prohibitive cost when applied to large data sets. Query-driven imputation offers a better alternative as it allows for We adopt a rule-based query rewriting technique for imputing the answers of aggregation queries that are missing or suffer from incorrectness due to data incompleteness. We present a novel query rewriting mechanism that is guided by the completeness pattern model and algebra.We also investigate the generalization of our pattern model for summarizing any data fragments. Summaries can be queried to analyze and compare data fragments in a synthetic and flexible way.
L'incomplétude des données est un problème majeur de qualité qui s'amplifie par la quantité croissante de données collectées par des sources peu fiables. L'évaluation de l'exhaustivité des données est cruciale pour déterminer leur qualité mais aussi la validité des réponses de requêtes qui en découlent. Dans le contexte de l'information relative, la complétude d'une base de données est évaluée en comparaison à une base référence. Nous apportons deux principales contributions à ce domaine: un modèle de motifs produisant des couvertures minimales résumant l’étendue des partitions de données complètes et manquantes, ainsi qu'une algèbre de motifs permettant de dériver des couvertures minimales pour l'analyse de la validité des réponses des requêtes. Ce modèle de motifs offre une opportunité intéressante pour réaliser de nombreuses applications, en particulier celles visant à améliorer la qualité des tâches affectées par les données manquantes. Nous adoptons une technique de réécriture de requêtes à base de règles pour imputer les réponses des requêtes d'agrégation manquantes ou présentant des valeurs incorrectes. Nous étudions également la généralisation de notre modèle de motifs pour effectuer la synthèse des fragments de données. Les résumés peuvent être interrogés pour analyser et comparer les fragments de données de manière synthétique et flexible.
Fichier principal
Vignette du fichier
HANNOU_FZ_these_2019.pdf (3.59 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02503212 , version 1 (09-03-2020)

Identifiants

  • HAL Id : tel-02503212 , version 1

Citer

Fatma-Zohra Hannou. A Pattern Model and Algebra for Representing and Querying Relative Information Completenes. Databases [cs.DB]. Sorbonne Université, 2019. English. ⟨NNT : 2019SORUS110⟩. ⟨tel-02503212⟩
221 Consultations
213 Téléchargements

Partager

Gmail Facebook X LinkedIn More