Contribution à la classification non supervisée par machines à noyaux

par Alissar Nasser

Thèse de doctorat en Informatique, automatique théorique, systèmes

Sous la direction de Denis Hamad et de Chaïban Nasr.

Soutenue en 2007

à Littoral .


  • Résumé

    La classification automatique non supervisée suscite de plus en plus d’intérêt dans différents domaines des sciences de l’ingénieur. Ceci est dû au développement rapide des moyens technologiques de mesure et de stockage générant de grandes quantités de données issues de sources diverses dont il faut analyser afin d’en extraire des informations utiles. Le principe de la classification non supervisée est justement de doter les machines de la capacité à découvrir des groupes naturels ou classes dans les objets présents aux entrées sans aucune connaissance a priori. Deux grandes catégories de méthodes existent : (1) les méthodes de classification dans l’espace d’entrée multidimensionnel et (2) les méthodes de projection pour la visualisation plane. Les premières cherchent des groupes denses ou des zones de fortes densités de probabilité alors que les secondes fournissent une vue plane image des données multidimensionnelles. La solution de bon sens est de faire coopérer ces méthodes d’une manière interactive impliquant l’opérateur humain dans le processus d’exploration de la structure des données. Récemment, les machines à noyaux ont connu un vif succès en classification non supervisée. L’idée de base est au lieu de projeter ou classer directement les données, on les transforme dans un espace de caractéristiques de grande dimension où les points images sont susceptibles d’être linéairement séparables. Ensuite, une technique classique de projection linéaire telle que l’analyse en composantes principales (PCA) ou de partitionnement tel que l’algorithme des K-means, sera appliquée sur les points dans leur espace de caractéristiques. C’est le principe des méthodes à noyaux ou « kernels » : kernel PCA, kernel K-means, etc. Le mémoire se propose de montrer l’apport des machines à noyaux dans la classification non supervisée, notamment en projection et en classification. Il présente au début les méthodes traditionnelles de projection pour ensuite exposer les méthodes d’analyse en composantes principales à noyau, les méthodes de classification spectrale et les méthodes de partitionnement kernel K-means. Les problèmes d’ajustement des paramètres et d’estimation du nombre des classes sont étudiés à travers des exemples de données synthétiques et réelles et les résultats des différentes méthodes sont comparés. Les approches de classification sont enfin appliquées pour l’aide à la détection d’évènements audio dans le transport public.

  • Titre traduit

    Contribution to unsupervised classification by kernel machines


  • Résumé

    Unsupervised classification has emerged as a popular technique for pattern recognition, image processing, and data mining. This is due to the development of advanced data measurements tools and data storage devices resulting in a huge quantity of data. This makes it necessary to analyze these data in order to extract some useful information. Unsupervised classification is one of the well-studied techniques, which concerns the partitioning of similar objects into clusters without any prior knowledge, such that objects in the same cluster share some unique properties. Two main categories of methods exist : (1) clustering methods in the multidimensional space and (2) projection methods for exploratory data analysis. The first category seeks zones/groups of high densities whereas the second category provides an accurate image on the plane of the multidimensional data. One of convenient lethods is by combining these two categories together in a way that involves a human operator into the process of structure analysis. Recently, Kernel machines gained a success in unsupervised classification. Instead, of projecting or classifying data directly in their input space, one transforms it into a high dimensional space called feature space and then applies any traditional projection technique such as Principal Components Analysis (PCA) or any clustering method such as K-means algorithm. The logic behind kernel is to enhance those features of the input data which make distinct pattern classes separate from each other. The present thesis shows the contribution of kernel machines in unsupervised classification, particularly in projection and classification methods. It first presents traditional projection methods and then present kernel Principal Components Analysis (kPCA). Spectral classification and kernel K-means clustering algortihm. The problems of adjusting kernel parameters and estimating the number of classes are studied. More over samples on synthetic and real data are executed ; results from various presented methods are compared. These clustering approaches are finally applied for the assistance to the detection of audio events in public transport.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (155 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.xxx-xxx. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université du Littoral-Côte d'Opale (Calais, Pas-de-Calais). Bibliothèque. Section Sciences.
  • Disponible pour le PEB
  • Bibliothèque : Université du Littoral-Côte d'Opale (Calais, Pas-de-Calais). Bibliothèque. Section Sciences.
  • Consultable sur place dans l'établissement demandeur
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.