Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2017

Improved data quality : correction of semantic inter-column anomalies

Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes

Résumé

Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns.
La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés.
Fichier principal
Vignette du fichier
These_HoudaZAIDI.pdf (5.15 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01636619 , version 1 (16-11-2017)

Identifiants

  • HAL Id : tel-01636619 , version 1

Citer

Houda Zaidi. Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes. Base de données [cs.DB]. Conservatoire national des arts et metiers - CNAM; École Nationale des Sciences de l'Informatique (La Manouba, Tunisie), 2017. Français. ⟨NNT : 2017CNAM1094⟩. ⟨tel-01636619⟩
647 Consultations
261 Téléchargements

Partager

Gmail Facebook X LinkedIn More