Classification de variables autour de variables latentes avec filtrage de l’information : application à des données en grande dimension

par Mingkun Chen

Thèse de doctorat en Sciences mathématiques appliquées,Statistique appliquée

Sous la direction de Evelyne Vigneau.

Le président du jury était Robert Sabatier.

Le jury était composé de Robert Sabatier, Christian Derquenne, Jean-Benoit Hardouin, Jean-Philippe Antignac, El Mostafa Qannari.

Les rapporteurs étaient Christian Derquenne.


  • Résumé

    Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombreuses informations. Nous adoptons ici une approche de classiffcation de variables (CLV) qui permet de mettre en lumière des structures disjonctives pour la réduction de la dimensionnalité du problème, facilitant ainsi l'interprétation des données. Cependant, afin d'améliorer davantage la pertinence de ce type d'approches, deux directions d'investigation sont proposées. La première consiste à filtrer les données de sorte à écarter les variables isolées ouassociées à du bruit de fond. Une stratégie qui consiste à créer un groupe supplémentaire de variables, appelé « noise cluster", ainsi qu'une stratégie fondée sur la définition de variables latentes de groupe creuses (ou sparse) sont proposées et comparées. La seconde direction d'investigation est le développement d'une procédure de classification de variables dirigée vers l'explication d'une variable de réponse. Un algorithme itératif de classification/extraction est proposé. Il fournit une séquence de variables latentes de groupes ayant de bonnes performances en prédiction. Elles sont également simples à interpréter dans la mesure ou chaque composante prédictrice n'est associée qu'à un sous-ensemble de variables exploratoires conçu pour avoir une structure pratiquement unidimensionnelle.

  • Titre traduit

    Clustering of variables around latent components with an information filtering : application to high dimensional data


  • Résumé

    With the development of high-throughput analysis techniques, researchers have adopted systematic approaches to describe simultaneously a large number of variables. However, one of the important challenges lies in the diffculty to summarise and interpret this enormous quantity of information. We adopt a clustering of variables approach (CLV) which allows us to highlight disjunctive structures, and therefore, reduce the dimensionality of the problem and facilitate the interpretation of the data at hand. However, in order to further improve the relevance of such approaches, two directions of investigation are proposed. The first direction involves filtering the data by setting aside atypical variables or variables associated with noise. For this purpose, a strategy to create an additional group of variables, called noise cluster, and a strategy based on the definition of sparse latent variables are proposed and compared. The second direction concerns the development of a clustering of variables procedure directed to the explanation of a response variable. The implementation of iterative algorithms provides a sequence of group latent variables with good predictive performance. These latent variables are also easy to interpret since each predictive component is associated with a subset of variables assumed to have a one-dimensional structure.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (113 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.103-110

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.