Thèse soutenue

Contribution à la classification non supervisée : proposition d'une méthode de bi-partitionnement

FR
Auteur / Autrice : Céline Robardet
Direction : Nicolas Nicoloyannis
Type : Thèse de doctorat
Discipline(s) : Sciences. Informatique
Date : Soutenance en 2002
Etablissement(s) : Lyon 1
Jury : Examinateurs / Examinatrices : Nicolas Nicoloyannis

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Les méthodes de classification non supervisée sont des outils de fouille de données qui visent à identifier des groupes d'objets similaires par rapport aux valeurs qu'ils prennent sur les différentes variables. Les méthodes dites "conceptuelles" adjoignent à la partition une "interprétation" des classes en fonction des valeurs des variables présentes dans chacune des classes. Nous proposons unalgorithme fondé sur ce principe. Il produit un couple de partitions liées, appelé bi-partition, constitué d'une partition des objets et d'une partition des modalités de variables. Le tableau de données est ainsi structuré du point de vue des objets et des variables. L'ajustement d'une partition à l'autre permet de déterminer automatiquement le nombre de classes des partitions. Nous proposons d'évaluer le lien entre ces deux partitions à l'aide d'une mesure d'association adaptée à la structure recherchée. Nous optimisons cette fonction objective avec un algorithme de recherche locale. Des applications sur des benchmarks montrent que les résultats sont cohérents avec ceux obtenus par d'autres méthodes et que la partition de l'ensemble des modalités constitue un outil précieux pour l'interprétation. Afin de justifier les choix ayant conduit à lélaboration de cette méthode, nous proposons une méthodologie de comparaison d'algorithmes de classifacation basée sur l'évaluation d'une distance entre deux partitions.