Développement et mise en place d'une méthode de classification multi-blocs : application aux données de l'OQAI.

par Mory Ouattara

Thèse de doctorat en Informatique

Sous la direction de Fouad Badran, Ndèye Niang-Kéïta et de Corinne Mandin.

Soutenue le 18-03-2014

à Paris, CNAM , dans le cadre de École doctorale Informatique, télécommunications et électronique (Paris) , en partenariat avec Centre d'Etude et de Recherche en informatique et communications (laboratoire) , Agence de l'environnement et de la maîtrise de l'énergie (France) (entreprise) et de Observatoire de la qualité de l'air intérieur (entreprise) .

Le président du jury était Bernadette Dorizzi.

Le jury était composé de Mohamed Nadif, Gilles Bisson.

Les rapporteurs étaient Francesco Palumbo, El Mostafa Qannari.


  • Résumé

    La multiplication des sources d'information et le développement de nouvelles technologies ont engendré des bases données complexes, souvent caractérisées par un nombre de variables relativement élevé par rapport aux individus. En particulier, dans les études environnementales sur la pollution de l'air intérieur, la collecte des informations sur les individus se fait au regard de plusieurs thématiques, engendrant ainsi des données de grande dimension avec une structure multi-blocs définie par les thématiques. L'objectif de ce travail a été de développer des méthodes de classification adaptées à ces jeux de données de grande dimension et structurées en blocs de variables. La première partie de ce travail présente un état de l'art des méthodes de classification en général et dans le cas de la grande dimension. Dans la deuxième partie, trois nouvelles approches de classification d'individus décrits par des variables structurées en blocs ont été proposées. La méthode 2S-SOM (Soft Subspace-Self Organizing Map), une approche de type subspace clustering basée sur une modification de la fonction de coût de l'algorithme des cartes topologiques à travers un double système de poids adaptatifs défini sur les blocs et sur les variables. Nous proposons ensuite des approches CSOM (Consensus SOM) et Rv-CSOM de recherche de consensus de cartes auto-organisées basées sur un système de poids déterminés à partir des partitions initiales. Enfin, la troisième partie présente une application de ces méthodes sur le jeu de données réelles de la campagne nationale logement (CNL) menée par l'OQAI afin de définir une typologie des logements au regard des thématiques : qualité de l'air intérieur, structure du bâtiment, composition des ménages et habitudes des occupants.

  • Titre traduit

    Development and implementation of a multi-block clustering methods : apply to OQAI data sets


  • Résumé

    The multiplication of information source and the development of news technologies generates complex databases, often characterized by relatively high number of variables compared to individuals. In particular, in the environmental studies on the indoor air quality, the information's collection is done according to several thematic, yielding column partitioned or multi-block data set. However, in case of high dimensional data, classical clustering algorithms are not efficient to find clusters which may exist in subspaces of the original space. The goal of this work is to develop clustering algorithms adapted to high dimensional data sets with multi-block structure. The first part of the work shows the state of art on clustering methods. In the second part, three new methods of clustering: the subspace clustering method 2S-SOM (Soft Subspace-Self Organizing Map)is based on a modified cost function of the Self Organizing Maps method across a double system of weights on the blocks and the variables. Then we propose two approaches to find the consensus of self-organized maps CSOM (Consensus SOM) and Rv-CSOM based on weights determined from initial partitions. The last part presents an application of these methods on the OQAI data to determine a typology of dwellings relatively to the following topics: indoor air quality, dwellings structure, household characteristics and habits of the inhabitants.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.