Méthodes non supervisées pour l’analyse des données multivariées

par Cosmin Lazar

Thèse de doctorat en Automatique, traitement du signal et génie informatique

Sous la direction de Danielle Nuzillard et de Patrice Billaudel.

Soutenue en 2008

à Reims .


  • Résumé

    Tous les domaines de la science nécessitent d’analyser des données qu’il s’agisse des sciences humaines ou des sciences exactes et naturelles. Ces données peuvent être de nature différente et dans des nombreuses situations elles représentent plusieurs enregistrements du même phénomène physique, elles sont regroupées dans des bases des données multivariées que l’on cherche à interpréter. Leur interprétation requiert la connaissance du domaine d’application qui sert de guide afin d’extraire l’information utile pour la compréhension des phénomènes étudiés. Une e��tape essentielle dans ce processus est le regroupement des données ayant des caractéristiques similaires dans des classes ; cette étape est appelée classification non supervisée (ou automatique) ou clustering. Concernant ce domaine d’analyse, des questions restent ouvertes comme la dimension intrinsèque et la réduction de dimension des données multivariées, le choix de la mesure de similarité ou la validation du nombre de classes. Ce travail apporte des contributions aux deux questions précédentes : le choix de la mesure de similarité pour la classification non supervisée et la réduction de dimension de données multivariées. Le phénomène de concentration des métriques est étudié et la pertinence de métriques non euclidiennes comme mesure de similarité dans de problèmes de classification est testée. Des indices prenant en compte la distance interclasse sont proposés pour choisir la métrique optimale si les classes sont gaussiennes. Les méthodes de séparation aveugle de sources sont étudiées dans le contexte de la réduction de dimension ; une méthode de SAS basée sur une interprétation géométrique du modèle de mélange linéaire est proposée. Des méthodes de SAS prenant en compte les contraintes des applications sont utilisées pour la réduction de dimension dans deux applications en imagerie multivariée. Celles-ci permettent la mise en évidence de facteurs physiquement interprétables ainsi que la réduction de la complexité des algorithmes de classification utilisés pour l’analyse. Les travaux sont illustrés sur deux applications sur des données réelles

  • Titre traduit

    Unsupervised methods for multivariate data analysis


  • Résumé

    Many scientific disciplines deal with multivariate data. Different recordings of the same phenomenon are usually embedded in a multivariate data set. Multivariate data analysis gathers efficient tools for extracting relevant information in order to comprehend the phenomenon in study. Gathering data into groups or classes according to some similarity criteria is an essential step in the analysis. Intrinsic dimension or dimension reduction of multivariate data, the choice of the similarity criterion, cluster validation are problems which still let open questions. This work tries to make a step further concerning two of the problems mentioned above: the choice of the similarity measure for data clustering and the dimension reduction of multivariate data. The choice of the similarity measure for data clustering is investigated from the concentration phenomenon of metrics point of view. Non Euclidean metrics are tested as alternative to the classical Euclidian distance as similarity measure. We tested if less concentrated metrics are more discriminative for multivariate data clustering. We also proposed indices which take into account the inter-classes distance (e. G. Davies-Bouldin index) in order to find the optimal metric when the classes are supposed to be Gaussian. Blind Source Separation (BSS) methods are also investigated for dimension reduction of multivariate data. A BSS method based on a geometrical interpretation of the linear mixing model is proposed. BSS methods which take into account application constraints are used for dimension reduction in two different applications of multivariate imaging. These methods allow the extraction of meaningful factors from the whole data set; they also allow reducing the complexity and the computing time of the clustering algorithms which are used further in analysis. Applications on multivariate image analysis are also presented

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol (149p.)
  • Annexes : Bibliogr. p.137-145

Où se trouve cette thèse ?

  • Bibliothèque : Université de Reims Champagne-Ardenne. Bibliothèque universitaire. Bibliothèque Moulin de la Housse.
  • Non disponible pour le PEB
  • Cote : 08REIMS011
  • Bibliothèque : Université de Reims Champagne-Ardenne. Bibliothèque universitaire. Bibliothèque Moulin de la Housse.
  • Disponible pour le PEB
  • Cote : 08REIMS011Bis
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.