Thèse soutenue

Maximum Dean Discrepancy et critère de Ward dans un RKHS : application à la classification hierarchique à noyau

FR  |  
EN
Auteur / Autrice : Na Li
Direction : Nicolas LefebvreRégis Lengellé
Type : Thèse de doctorat
Discipline(s) : Optimisation et Sûreté des Systèmes
Date : Soutenance le 01/12/2015
Etablissement(s) : Troyes
Ecole(s) doctorale(s) : Ecole doctorale Sciences pour l'Ingénieur (Troyes, Aube)
Partenaire(s) de recherche : Organisme gouvernemental étranger : CSC (China Scolarship Council)
Laboratoire : Institut Charles Delaunay / ICD
Jury : Président / Présidente : David Brie
Examinateurs / Examinatrices : Nicolas Lefebvre, Régis Lengellé, David Brie, Stéphane Canu, Thierry Denoeux, YongGang Lu
Rapporteurs / Rapporteuses : Stéphane Canu, Thierry Denoeux

Résumé

FR  |  
EN

La classification non supervisée consiste à regrouper des objets afin de former des groupes homogènes au sens d’une mesure de similitude. C’est un outil utile pour explorer la structure d’un ensemble de données non étiquetées. Par ailleurs, les méthodes à noyau, introduites initialement dans le cadre supervisé, ont démontré leur intérêt par leur capacité à réaliser des traitements non linéaires des données en limitant la complexité algorithmique. En effet, elles permettent de transformer un problème non linéaire en un problème linéaire dans un espace de plus grande dimension. Dans ce travail, nous proposons un algorithme de classification hiérarchique ascendante utilisant le formalisme des méthodes à noyau. Nous avons tout d’abord recherché des mesures de similitude entre des distributions de probabilité aisément calculables à l’aide de noyaux. Parmi celles-ci, la maximum mean discrepancy a retenu notre attention. Afin de pallier les limites inhérentes à son usage, nous avons proposé une modification qui conduit au critère de Ward, bien connu en classification hiérarchique. Nous avons enfin proposé un algorithme itératif de clustering reposant sur la classification hiérarchique à noyau et permettant d’optimiser le noyau et de déterminer le nombre de classes en présence