Sélection de variables pour la discrimination en grande dimension et classification de données fonctionnelles

par Christine Tuleau

Thèse de doctorat en Mathématiques

Sous la direction de Jean-Michel Poggi.


  • Résumé

    Cette these s'inscrit dans le cadre de la statistique non parametrique et porte sur la classification et la discrimination en grande dimension, et plus particulierement sur la selection de variables. Une premiere partie traite de la selection de variables a travers cart, dans un cadre de regression et de classification binaire. La procedure exhaustive developpee s'appuie sur le principe de la selection de modele qui permet d'obtenir des inegalites " oracle " et de realiser une selection de variables par contraste penalise. Une seconde partie est motivee par un probleme industriel. Il s'agit de determiner parmi les signaux temporels, mesures au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis de definir les plages temporelles responsables de cette pertinence. La demarche adoptee s'articule autour du pretraitement des signaux, de la reduction de la dimension par compression dans une base d'ondelettes et de l'extraction de variables en melant cart a une strategie pas a pas. Une derniere partie aborde le theme de la classification de donnees fonctionnelles au moyen des k-plus proches voisins. La procedure consiste a appliquer les k-plus proches voisins sur les coordonnees de la projection des donnees fonctionnelles sur un espace fini-dimensionnel. Cette procedure implique de determiner simultanement la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version legerement penalisee sont considerees theoriquement. Un travail sur donnees reelles et simulees semble montrer que l'introduction d'un faible terme de penalite stabilise la selection en conservant de bonnes performances.

  • Titre traduit

    Variable selection for discrimination in high dimension and functional data classification


  • Résumé

    This thesis deals with nonparametric statistics and is related to classification and discrimination in high dimension, and more particularly on variable selection. A first part is devoted to variable selection through cart, both the regression and binary classification frameworks. The proposed exhaustive procedure is based on model selection which leads to “oracle” inequalities and allows to perform variable selection by penalized empirical contrast. A second part is motivated by an industrial problem. It consists of determining among the temporal signals, measured during experiments, those able to explain the subjective drivability, and then to define the ranges responsible for this relevance. The adopted methodology is articulated around the preprocessing of the signals, dimensionality reduction by compression using a common wavelet basis and selection of useful variables involving cart and a strategy step by step. A last part deals with functional data classification with k-nearest neighbors. The procedure consists of applying k-nearest neighbors on the coordinates of the projections of the data on a suitable chosen finite dimesional space. The procedure involves selecting simultaneously the space dimension and the number of neighbors. The traditional version of k-nearest neighbors and a slightly penalized version are theoretically considered. A study on real and simulated data shows that the introduction of a small penalty term stabilizes the selection while preserving good performance.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (121 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 111-115

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2005)218
  • Bibliothèque : Université de Lorraine. Bibliothèque de mathématiques de l'Institut Elie Cartan de Lorraine.
  • PEB soumis à condition
  • Cote : Th TULEAU s
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TULE
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.