Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2017

Random methods for machine learning of high dimensional data : application to transfer learning

Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé

Résumé

This thesis deals with the study of random methods for learning large-scale data. Firstly, we propose an unsupervised approach consisting in the estimation of the principal components, when the sample size and the observation dimension tend towards infinity. This approach is based on random matrices and uses consistent estimators of eigenvalues and eigenvectors of the covariance matrix. Then, in the case of supervised learning, we propose an approach which consists in reducing the dimension by an approximation of the original data matrix and then realizing LDA in the reduced space. Dimension reduction is based on low–rank approximation matrices by the use of random matrices. A fast approximation algorithm of the SVD and a modified version as fast approximation by spectral gap are developed. Experiments are done with real images and text data. Compared to other methods, the proposed approaches provide an error rate that is often optimal, with a small computation time. Finally, our contribution in transfer learning consists in the use of the subspace alignment and the low-rank approximation of matrices by random projections. The proposed method is applied to data derived from benchmark database; it has the advantage of being efficient and adapted to large-scale data
Cette thèse porte sur l’étude de méthodes aléatoires pour l’apprentissage de données en grande dimension. Nous proposons d'abord une approche non supervisée consistant en l'estimation des composantes principales, lorsque la taille de l'échantillon et la dimension de l'observation tendent vers l'infini. Cette approche est basée sur les matrices aléatoires et utilise des estimateurs consistants de valeurs propres et vecteurs propres de la matrice de covariance. Ensuite, dans le cadre de l’apprentissage supervisé, nous proposons une approche qui consiste à, d'abord réduire la dimension grâce à une approximation de la matrice de données originale, et ensuite réaliser une LDA dans l’espace réduit. La réduction de dimension est basée sur l’approximation de matrices de rang faible par l’utilisation de matrices aléatoires. Un algorithme d'approximation rapide de la SVD, puis une version modifiée permettant l’approximation rapide par saut spectral sont développés. Les approches sont appliquées à des données réelles images et textes. Elles permettent, par rapport à d’autres méthodes, d’obtenir un taux d’erreur assez souvent optimal, avec un temps de calcul réduit. Enfin, dans le cadre de l’apprentissage par transfert, notre contribution consiste en l’utilisation de l'alignement des sous-espaces caractéristiques et l’approximation de matrices de rang faible par projections aléatoires. La méthode proposée est appliquée à des données de référence ; elle présente l’avantage d’être performante et adaptée à des données de grande dimension
Fichier principal
Vignette du fichier
Nassara_Elhadji_Ille_Gado_2017TROY0032.pdf (3.22 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02965215 , version 1 (13-10-2020)

Identifiants

  • HAL Id : tel-02965215 , version 1

Citer

Nassara Elhadji Ille Gado. Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé. Apprentissage [cs.LG]. Université de Technologie de Troyes, 2017. Français. ⟨NNT : 2017TROY0032⟩. ⟨tel-02965215⟩
108 Consultations
430 Téléchargements

Partager

Gmail Facebook X LinkedIn More