Thèse soutenue

Intégration de contraintes en classification automatique évidentielle

FR  |  
EN
Auteur / Autrice : Violaine Antoine
Direction : Benjamin QuostMarie-Hélène Masson
Type : Thèse de doctorat
Discipline(s) : Technologies de l'information et des systèmes
Date : Soutenance en 2011
Etablissement(s) : Compiègne

Résumé

FR  |  
EN

La classification automatique est l'une des branches de l'analyse de données qui vise à regrouper des objets similaires en classes. Quand elle n'est pas connue directement, la mesure de similarité entre objets se fonde sur une description des objets par des attributs le plus souvent numériques. Par essence, la recherche d'une structure de classes est faite de manière non supervisée, c'est-à-dire qu'elle est guidée uniquement par les caractéristiques des objets ou leur mesure de dissimilarité. Dans certaines applications cependant, une connaissance humaine supplémentaire sur les objets ou sur les classes en présence est disponible. Dans ce contexte, nous proposons de combiner deux concepts existants en classification automatique. Le premier concept, la classification sous contraintes, consiste à introduire une connaissance à priori sous forme de contraintes sur la partition recherchée. Il existe différentes formes de contraintes à différents niveaux du modèle. Au niveau des objets par exemple, une contrainte "Must-Link" spécifie que deux objets doivent être dans la même classe et une contrainte "Cannot-Link" indique que deux objets ne doivent pas être dans la même classe. L'ajout de contraintes permet une amélioration sensible des résultats de classification. Le second concept correspond à l'utilisation des fonctions de croyance - et notamment l'utilisation de la notion de partition crédale - en classification non supervisée. La notion de partition crédale généralise les notions de partitions dures et floues et permet en particulier de gérer les points aberrants, c'est-à-dire ceux qui n'appartiennent à aucune classe. Nous introduisons dans cette thèse deux nouveaux algorithmes de classification sous contraintes en utilisant le cadre théorique des fonctions de croyance. L'un est dédié aux données de type individus-variables, l'autre aux données de dissimilarités. Leurs performances sont évaluées sur différents jeux de données synthétiques et réels.