Intégration de contraintes en classification automatique évidentielle

par Violaine Antoine

Thèse de doctorat en Technologies de l'information et des systèmes

Sous la direction de Benjamin Quost et de Marie-Hélène Masson.

Soutenue en 2011

à Compiègne .


  • Résumé

    La classification automatique est l'une des branches de l'analyse de données qui vise à regrouper des objets similaires en classes. Quand elle n'est pas connue directement, la mesure de similarité entre objets se fonde sur une description des objets par des attributs le plus souvent numériques. Par essence, la recherche d'une structure de classes est faite de manière non supervisée, c'est-à-dire qu'elle est guidée uniquement par les caractéristiques des objets ou leur mesure de dissimilarité. Dans certaines applications cependant, une connaissance humaine supplémentaire sur les objets ou sur les classes en présence est disponible. Dans ce contexte, nous proposons de combiner deux concepts existants en classification automatique. Le premier concept, la classification sous contraintes, consiste à introduire une connaissance à priori sous forme de contraintes sur la partition recherchée. Il existe différentes formes de contraintes à différents niveaux du modèle. Au niveau des objets par exemple, une contrainte "Must-Link" spécifie que deux objets doivent être dans la même classe et une contrainte "Cannot-Link" indique que deux objets ne doivent pas être dans la même classe. L'ajout de contraintes permet une amélioration sensible des résultats de classification. Le second concept correspond à l'utilisation des fonctions de croyance - et notamment l'utilisation de la notion de partition crédale - en classification non supervisée. La notion de partition crédale généralise les notions de partitions dures et floues et permet en particulier de gérer les points aberrants, c'est-à-dire ceux qui n'appartiennent à aucune classe. Nous introduisons dans cette thèse deux nouveaux algorithmes de classification sous contraintes en utilisant le cadre théorique des fonctions de croyance. L'un est dédié aux données de type individus-variables, l'autre aux données de dissimilarités. Leurs performances sont évaluées sur différents jeux de données synthétiques et réels.

  • Titre traduit

    Integrating constraints in evidential clustering


  • Résumé

    Cluster analysis is one branch of data analysis that aims at grouping similar objects into cluster. When a dissimilarity measure between objects is not known a priori, it is based on the description of the objects which is usually composed of numerical attributes. In essence, the research of clusters structure is unsupervised. Indeed, it is only guided by the characteristics of the objects or by their dissimilarity measures. However, for some applications or in particular domains, it exists some extra knowledge on the objects or on the classes. In this framework, we propose to combine two concepts of clustering. The first one, called constrained clustering, aims at introducing background knowledge in the form of constraints in order to guide the algorithm towards a desired solution. It exists different type of constraints, at different level. In the instance level for example, a Must-Link constraint specifies that two objects should be in the same class and a Cannot- Link constraint indicates that two objects are not in the same class. Adding constraints enable to perceptibly improve the accuracy of the classification. The second concept corresponds to the use of belief functions (and particularly the use of some notion : the credal partition) in clustering. The notion of credal partition enhance the notions of hard and fuzzy partitions and enables to represents a wide range of situations concerning the class membership of an objet. For example, it handles particularly well ouliers. We introduce in this thesis two new constrained clustering algorithms that use the framework of belief functions. The first one is dedicated to feature vector data and the second one to relational data. The results are evaluated on synthetic and real databases.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (122 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 74 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Technologie de Compiègne. Service Commun de la Documentation.
  • Disponible pour le PEB
  • Cote : 2011 ANT 1976
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.