Données manquantes et méthodes d'imputation en classification

par Ana Isabel Silva Gonçalves da Costa Lorga da

Thèse de doctorat en Informatique

Sous la direction de Gilbert Saporta.

Soutenue en 2005

à Paris, CNAM en cotutelle avec Lisbonne, Instituto Superior de Economia e Gestao .


  • Résumé

    Le but de ce travail est d'étudier l'effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification hiérachique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants : pourcentage de donnes manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes au hasard, mais pas complètement au hasard. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes listwise et pairwise et comme méthodes d'imputation simple. L'algorithme EM, le modèle de régression OLS, l'algorithme NIPALS et une méthode de régression PLS. Comme méthodes d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les strctures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérachique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB ; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) -qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalemnt sur des données simulées et complétée par des applications à des données réelles.


  • Résumé

    In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors; amount of missing data, imputation techniques, similarly coefficient and classification criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As mutiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarly matrices and an ordinal consensus. As hierarchical methods we used classical and probabilistic approaches, the latter based on the VL-family. The hierachical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data)-that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method. The study was based mainly on simulated data, complemented by reals ones. We used the Spearman coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (222 p.)
  • Annexes : Bibliogr. p. 217-222

Où se trouve cette thèse ?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : Th A 719
  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Disponible pour le PEB
  • Cote : Th A 719 double
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.