Modèles de mélange pour la classification non supervisée de données qualitatives et mixtes

by Matthieu Marbac-Lourdelle

Doctoral thesis in Mathématiques appliquées

Under the supervision of Christophe Biernacki and Vincent Vandewalle.

defended on 23-09-2014

in Lille 1 , under the authority of École doctorale Sciences pour l'Ingénieur (Lille) , in a partnership with Laboratoire Paul Painlevé (laboratoire) .

  • Alternative Title

    Model-based clustering for categorical and mixed data sets


  • Abstract

    This work is our contribution to the cluster analysis of categorical and mixed data. The methods proposed in this manuscript modelize the data distribution in a probabilistic framework. When the data are categorical or mixed, the classical model assumes the independence between the variables conditionally on class. However, this approach is biased when the variables are intra-class correlated. The aim of this thesis is to study and to present some mixture models which relax the conditional independence assumption. Moreover, they have to summarize each class with few characteristic parameters. The first part of this manuscript is devoted to the cluster analysis of categorical data. The categorical variables are difficult to cluster since they leave the statistician facing with many combinatorial challenges. In this context, our contribution consists in two parsimonious mixture models which allow to cluster categorical data presenting intra-class dependencies. The main idea of these models is to group the variables into conditionally independent blocks. By setting specific distributions for these blocks, both models consider the intra-classdependencies between the variables. The first approach modelizes the block distribution by a mixture of two extreme dependency distributions while the second approach modelizes it by a multinomial distribution per modes. The study of the cluster analysis of mixed data sets is the second objective of this work. The challenge is due to the lack of classical distributions for mixed variables. Thus, we defined a probabilistic model respecting two main constraints. Firstly, the one-dimensional margin distributions of the components are classical for each variables. Secondly, the model characterizes the main intra-class dependencies. This model is defined as a mixture of Gaussian copulas. The Bayesian inference is performed via a Gibbs sampler. The classical information criteria (BIC, ICL) permit to perform the model selection.


  • Abstract

    Cette thèse propose une contribution originale pour la classification non supervisée de données qualitatives ou de données mixtes. Les approches proposées sont à base de modèles probabilistes ayant pour but de modéliser la distribution des données observées. Dans les cas de données qualitatives ou mixtes, il est d'usage de supposer l'indépendance entre les variables conditionnellement à la classe. Cependant, cette approche s'avère biaisée lorsque l'hypothèse d'indépendance conditionnelle est erronée. L'objet de cette thèse est d'étudier et de proposer des modèles relâchant l'hypothèse d'indépendance conditionnelle. Ceux-ci doivent permettre de résumer chaque classe par quelques paramètres significatifs. La première partie de cette thèse porte sur la classification non supervisée de données qualitatives. Lorsque ces données sont corrélées au sein des classes, le statisticien est confronté à de nombreux problèmes combinatoires (grand nombre de paramètres et choix de modèle complexe). Notre approche consiste à relâcher l'hypothèse d'indépendance conditionnelle en regroupant les variables en blocs conditionnellement indépendants. Cette méthode nous amène à présenter deux modèles probabilistes. Ceux-ci définissent la distribution d'un bloc de manière à limiter le nombre de paramètres du modèle tout en fournissant un modèle facilement interprétable. Le premier modélise la distribution d'un bloc de variables par le mélange des deux distributions de dépendances extrêmes tandis que le second modèle utilise une distribution multinomiale par modes. La seconde partie de cette thèse porte sur la classification non supervisée de données mixtes. La difficulté spécifique à de telle données est due à l'absence de distribution de référence pour le cas de variables de différentes natures. Ainsi, on souhaite définir un modèle probabiliste respectant les deux contraintes suivantes. Tout d'abord, les distributions marginales de chacune des composantes doivent être des distributions classiques afin de faciliter l'interprétation du modèle. De plus, le modèle doit permettre de caractériser les dépendances intra-classes par quelques paramètres significatifs. Ce cahier des charges nous amène naturellement à utiliser la théorie des copules. Ainsi, nous proposons un modèle de mélange de copules gaussiennes que nous considérons comme la contribution majeure de cette thèse. Pour ce modèle, nous effectuons une inférence bayésienne à partir d'un échantillonneur de Gibbs. Les critères d'information classiques (BIC, ICL), nous permettent de répondre aux problématiques de choix de modèles.


It's available in the institution of thesis defence.

Consult library

Version is available

Where is this thesis?

  • Library : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
See the Sudoc catalog libraries of higher education and research.