Conception et validation d’une méthode de complétion des valeurs manquantes fondée sur leurs modèles d’apparition

par Leila Ben Othman Amroussi

Thèse de doctorat en Informatique et applications

Sous la direction de Bruno Crémilleux et de Sadok Ben Yahia.

Soutenue en 2011

à Caen .


  • Résumé

    L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées.

  • Titre traduit

    A Missing values completion method based on their appearing models


  • Résumé

    Knowledge Discovery from incomplete databases is a thriving research area. In this thesis, the main focus is put on the proposal of a missing values completion method. We start approaching this issue by defining the appearing models of the missing values. We thus propose a new typology according to the given data and we characterize these missing values in a non-redundant manner defined by means of the basis of proper implications. An algorithm computing this basis of rules, heavily relying on the hypergraph theory battery of results, is also introduced in this thesis. We then explore the information provided during the characterization stage in order to propose a new contextual completion method. The latter completes the missing values with respect to their type as well as to their appearance context. The non-random missing values are completed with special values intrinsically containing the explanation defined by the characterization schemes. Finally, we investigate the evaluation techniques of the missing values completion methods and we introduce a new technique based on the stability of a clustering, when applied on reference data and completed ones.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-121p.)
  • Annexes : Bibliogr. p.113-121. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Non disponible pour le PEB
  • Cote : TCAS-2011-67
  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Disponible pour le PEB
  • Cote : TCAS-2011-67bis
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.