La qualité des données et leur recommandation : modèle conceptuel, formalisation et application a la veille technologique

par Laure Berti

Thèse de doctorat en Génie informatique, automatique et traitement du signal

Sous la direction de Jacques Le Maitre.

Soutenue en 1999

à Toulon , en partenariat avec Université du Sud Toulon-Var. UFR de Sciences et Techniques (autre partenaire) .


  • Résumé

    Les activités liées à la veille technologique sont traditionnellement centrées sur la notion de validation de l'information par expertise. Jusqu'à présent aucun système d'information n'assure (ni n'assiste) l'analyse critique et qualitative de l'information qu'il stocke. La plupart des systèmes d'information actuels stockent des données (I) dont la source est généralement unique, non connue ou non identifiée/authentifiée et (2) dont k qualité est inégale et/ou ignorée. Après avoir analysé le vaste panorama des travaux de recherche dont les problématiques présentent des analogies avec la problématique de la veille, l'objectif était de proposer un environnement permettant la gestion des sources textuelles, des données (souvent contradictoires) extraites de leur contenu et des méta-données de qualité. La contribution de cette thèse est d'apporter une perspective multi-source à la qualité des données en définissant les concepts de base de données multi-sources (BDMS), de qualité de données multi-sources (QDMS) et de recommandation multi-critère. Mon travail s'est axé sur : la proposition d'une méthodologie qui guide pas-à-pas la mise en oeuvre de la qualité des données dans un contexte d'informations mulli-sources ; la modélisation conceptuelle d'une BDMS permettant la gestion de sources, de données multi-sources et t de leur rnéta-données de qualité et proposant des mécanismes de recommandation des données selon leur qualité relative, la formalisation du modèle de données QDMS qui décrit les données multi-sources, leurs méta-données de qualité et l'ensemble des opérations pour les manipuler, le développement du prototype sQuaL pour valider l'ensemble de mes propositions. Les perspectives sont de développer un système d'information spécifique à la veille pour qu'il gère des données multi-sources, prenne en compte la qualité de ses propres données et propose à l'interrogation une recommandation des données basée sur leur qualité relative. A plus long terme, il s'agit de développer le concept de système d'information "introspectif", c'est-à-dire actif et réactif quant à la qualité de ses propres données.

  • Titre traduit

    Data quality and their recommendation : conceptual modeling, formalization and application to technical watch


  • Résumé

    Technological Watch activities are focused on information qualification and validation by human expertise. As a matter of facf, none of these systems can provide (nor assist) a critical and qualitative analysis of data they store and manage- Most of information systems store data (1) whose source is usually unique, not known or not identified/authenticated (2) whose quality is unequal and/or ignored. In practice, several data may describe the same entity in the real world with contradictory values and their relative quality may be comparatively evaluated. Many techniques for data cleansing and editing exist for detecting some errors in database but it is determinant to know which data have bad quality and to use the benefit of a qualitative expert judgment on data, which is complementary to quantitative and statistical data analysis. My contribution is to provide a multi-source perspective to data quality, to introduce and to define the concepts of multi-source database (MSDB) and multi-source data quality (MSDQ). My approach was to analyze the wide panorama of research in the literature whose problematic have some analogies with technological watch problematic. The main objective of my work was to design and to provide a storage environment for managing textual information sources, (more or less contradictory) data that are extracted from the textual content and their quality mcta-data. My work was centered on proposing : the methodology to guide step-by-step a project for data quality in a multi-source information context, the conceptual modeling of a multi-source database (MSDB) for managing data sources, multi-source data and their quality meta-data and proposing mechanisms for multi-criteria data recommendation ; the formalization of the QMSD data model (Quality of Multi-Source Data) which describes multi-source data, their quality meta-data and the set of operations for manipulating them ; the development of the sQuaL prototype for implementing and validating my propositions. In the long term, the perspectives are to develop a specific dccisional information system extending classical functionalities for (1) managing multi-source data (2) taking into account their quality meta-data and (3) proposing data-quality-based recommendation as query results. The ambition is to develop the concept of "introspective information system" ; that is to say, an information system thai is active and reactive concerning the quality of its own data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (241 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Références bibliographiques p.213-231

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Toulon (La Garde). Bibliothèque universitaire. Section Campus La Garde.
  • Non disponible pour le PEB
  • Cote : TH-SCI/1999TOUL8
  • Bibliothèque : Université de Toulon (La Garde). Bibliothèque universitaire. Section Campus La Garde.
  • Disponible pour le PEB
  • Cote : TH-SCI/1999TOUL8.bis
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.