Thèse de doctorat en Informatique. Analyse de données
Sous la direction de Edwin Diday.
Soutenue en 2010
à Paris 9 .
L'objet de cette thèse est celui d'étendre l'Analyse en Composantes Principales (ACP) à des variables symboliques de type histogramme. Sept méthodes méthodes ont été développées à cet effet. Les trois premières sont basées sur la définition d'opérateurs produits. Ce sont les méthodes I, II et III. La méthode I étend la méthode de Nagabhushan et Kumar (2007) qui présente quelques similarités avec l'Analyse Factorielle Multiple. La méthode II se base sur le produit scalaire matriciel et tente de venir à bout d'un inconvénient de la méthode I concernant le problème de la définition d'un système d'axes compromis. Dans la méthode III, l'opérateur produit 2 entre deux vecteurs x=( x1,…,xm ) et y=( y1,…,ym ) est x 2 y=∑k1=1m ∑k2=1m xk1 yk2. L'usage de cet opérateur sur des histogrammes nécessite cependant le recours à une transformation normalisatrice des variables. Cela permet de prendre en compte la nature compositionnelle des fréquences relatives. Toutefois, il faut préciser que dans ces trois premières méthodes, on formule une hypothèse assez forte qui nécessite que le nombre de modalités des variables de type histogramme soit le même quelque soit la variable. Les méthodes basées sur la transformation des histogrammes en intervalles (méthode IV) viennent à bout de cette contrainte. Ensuite, nous proposons la méthode V qui est une synthèse des outils proposés dans les méthodes III et IV. Les différentes variantes de la méthode V sont moins fastidieuses en termes de coût que la méthode IV mais appréhende moins bien la dispersion des individus que la méthode IV. La méthode VI est une version améliorée de la méthode IV qui vient à bout des inconvénients de la méthode V. Elle utilise les quantiles, crée un tableau mn x p où m désigne le nombre de quantiles, n celui des individus, p celui des variables et projette ce tableau en supplémentaire sur les axes factoriels des moyennes. Les possibles limites de la méthode VI peuvent découler du fait que l'usage des quantiles peut conduire à une surestimation de la variabilité des individus. La méthode VII propose une autre démarche pour représenter la variabilité des individus. Dans la méthode VII, on transforme les histogrammes en intervalles via la règle de Tchebychev. Ensuite, on détermine la longueur de chaque intervalle et on projette en supplémentaire la matrice des longueurs des intervalles sur les axes principaux des moyennes des tableaux
Principal component analysis of symbolic histogram variables
The objective of this thesis is to extend Principal Component Analysis PCA to symbolic histogram variable. Three firsts are methods I, II and III. Method I extends Nagabhushan and Kumar (2007) method which presents some similarity with the Multiple Factorial Analysis. Method II bases himself on the matrix scalar product and tries to come at the end of an inconvenience of Method I concerning the problem of the definition of a compromise system of axes. Method III uses an operator we call 2. However, the usage of this operator requires the appeal to a normalizing transformation of variables. It allows taking into account the compositional nature of the relative frequencies. However, it is necessary to specify that in the methods based on operators use strong hypothesis about bins of histogram. The methods based on the transformation of histograms in intervals (Method IV) get overcome this constraint about bins of histogram. Then we propose methods V which are a synthesis of tools proposed in method III and those proposed in method IV. Different variants of method V are less boring in terms of cost than method method IV, but method V estimates the dispersion of the individuals less well than method IV. We overcome this disadvantage by offering a version improved by method IV that we call method VI. The possible limits of method VI stem from the fact the usage of quantiles can lead to an overestimation of the variability of the individuals. By the end, we propose method VII which gives another approach to represent the variability of the individuals. In Method VII, we transform histograms into intervals via the rule of Tchebychev. Then, we determine the length of every interval and we project in additional lengths of the intervals on the principal axes of the averages of variables