Thèse soutenue

Analyse en composantes principales de variables symboliques de type histogramme

FR  |  
EN
Auteur / Autrice : Sun Makosso Kallyth
Direction : Edwin Diday
Type : Thèse de doctorat
Discipline(s) : Informatique. Analyse de données
Date : Soutenance en 2010
Etablissement(s) : Paris 9

Résumé

FR  |  
EN

L'objet de cette thèse est celui d'étendre l'Analyse en Composantes Principales (ACP) à des variables symboliques de type histogramme. Sept méthodes méthodes ont été développées à cet effet. Les trois premières sont basées sur la définition d'opérateurs produits. Ce sont les méthodes I, II et III. La méthode I étend la méthode de Nagabhushan et Kumar (2007) qui présente quelques similarités avec l'Analyse Factorielle Multiple. La méthode II se base sur le produit scalaire matriciel et tente de venir à bout d'un inconvénient de la méthode I concernant le problème de la définition d'un système d'axes compromis. Dans la méthode III, l'opérateur produit 2 entre deux vecteurs x=( x1,…,xm ) et y=( y1,…,ym ) est x 2 y=∑k1=1m ∑k2=1m xk1 yk2. L'usage de cet opérateur sur des histogrammes nécessite cependant le recours à une transformation normalisatrice des variables. Cela permet de prendre en compte la nature compositionnelle des fréquences relatives. Toutefois, il faut préciser que dans ces trois premières méthodes, on formule une hypothèse assez forte qui nécessite que le nombre de modalités des variables de type histogramme soit le même quelque soit la variable. Les méthodes basées sur la transformation des histogrammes en intervalles (méthode IV) viennent à bout de cette contrainte. Ensuite, nous proposons la méthode V qui est une synthèse des outils proposés dans les méthodes III et IV. Les différentes variantes de la méthode V sont moins fastidieuses en termes de coût que la méthode IV mais appréhende moins bien la dispersion des individus que la méthode IV. La méthode VI est une version améliorée de la méthode IV qui vient à bout des inconvénients de la méthode V. Elle utilise les quantiles, crée un tableau mn x p où m désigne le nombre de quantiles, n celui des individus, p celui des variables et projette ce tableau en supplémentaire sur les axes factoriels des moyennes. Les possibles limites de la méthode VI peuvent découler du fait que l'usage des quantiles peut conduire à une surestimation de la variabilité des individus. La méthode VII propose une autre démarche pour représenter la variabilité des individus. Dans la méthode VII, on transforme les histogrammes en intervalles via la règle de Tchebychev. Ensuite, on détermine la longueur de chaque intervalle et on projette en supplémentaire la matrice des longueurs des intervalles sur les axes principaux des moyennes des tableaux