Classification à base de modèles de mélanges topologiques des données catégorielles et continues

par Nicoleta Rogouschi

Thèse de doctorat en Informatique

Sous la direction de Younès Bennani.

Soutenue en 2009

à Paris 13 .


  • Résumé

    Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de cartes auto-organisatrices dans un formalisme de modèles de mélanges pourle traitement de données qualitatives, mixtes et séquentielles. Pour chaque type de données, un modèle d'apprentissage non supervisé adapté est proposé. Le premier modèle, décrit dans cette étude, est un nouvel algorithme d'apprentissage des cartes topologiques BeSOM (Bernoulli Self-Organizing Map) dédié aux données binaires. Chaque cellule de la carte est associée à une distribution de Bernoulli. L'apprentissage dans ce modèle a pour objectif d'estimer la fonction densité sous forme d'un mélange de densités élémentaires. Chaque densité élémentaire est-elle aussi un mélange de lois Bernoulli définies sur un voisinage. Le second modèle aborde le problème des approches probabilistes pour le partitionnement des données mixtes (quantitatives et qualitatives). Le modèle s'inspire de travaux antérieurs qui modélisent une distribution par un mélange de lois de Bernoulli et de lois Gaussiennnes. Cette approche donne une autre dimension aux cartes topologiques : elle permet une interprétation probabiliste des cartes et offre la possibilité de tirer profit de la distribution locale associée aux variables continues et catégorielles. En ce qui concerne le troisième modèle présenté dans cette thèse, il décrit un nouveau formalisme de mélanges Markovien dédiés au traitement de données structurées en séquences. L'approche que nous proposons est une généralisation des chaines de Markov traditionnelles. Deux variantes sont développées : une approche globale où la topologie est utilisée d'une manière implicite et une approche locale où la topologie est utilisée d'une manière explicite. Les résultats obtenus sur la validation des approches traités dans cette étude sont encourageants et prometteurs à la fois pour la classification et pour la modélisation.

  • Titre traduit

    Topological mixture model clustering of datasets with categorical and continuous variables


  • Résumé

    The research presented in this thesis concerns the development of self-organising map approaches based on mixture models which deal with different kinds of data : qualitative, mixed and sequential. For each type of data we propose an adapted unsupervised learning model. The first model, described in this work, is a new learning algorithm of topological map BeSOM (Bernoulli Self-Organizing Map) dedicated to binary data. Each map cell is associated with a Bernoulli distribution. In this model, the learning has the objective to estimate the density function presented as a mixture of densities. Each density is as well a mixture of Bernoulli distribution defined on a neighbourhood. The second model touches upon the problem of probability approaches for the mixeddata clustering (quantitative and qualitative). The model is inspired by previous workswhich define a distribution by a mixture of Bernoulli and Gaussian distributions. This approach gives a different dimension to topological map : it allows probability map interpretation and others the possibility to take advantage of local distribution associated with continuous and categorical variables. As for the third model presented in this thesis, it is a new Markov mixture model applied to treatment of the data structured in sequences. The approach that we propose is a generalisation of traditional Markov chains. There are two versions : the global approach, where topology is used implicitly, and the local approach where topology is used explicitly. The results obtained upon the validation of all the methods are encouragingand promising, both for classification and modelling.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (172 p.)
  • Annexes : Bibliogr. p.159-172

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • PEB soumis à condition
  • Cote : TH 2009 039
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.