Apprentissage Semi-Supervisé et par Transfert en Grandes Dimensions : une Approche Basée sur la Théorie des Matrices Aléatoires

par Malik Tiomoko

Projet de thèse en Traitement du signal et des images

Sous la direction de Romain Couillet et de Frédéric Pascal.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec L2S - Laboratoire des signaux et systèmes (laboratoire) , Signaux (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-11-2018 .


  • Résumé

    L'objectif de la thèse est d'adapter les récentes découvertes en analyse asymptotique pour l'apprentissage statistique au domaine de l'apprentissage semi-supervisé et à l'apprentissage par transfert. Ceci permettra de rendre plus concrètes ces découvertes jusque là théoriques en les confrontant à des problématiques plus réalistes, notamment industrielles. Des permières avancées dans le cadre de la théorie des matrices aléatoires ont permis de générer des 'preuves de concept' que les trouvailles théoriques permettent des avancées pratiques majeures. Il est important de souligner que pour la plupart des applications d'intérêt pratique, la taille des données gérées est souvent insuffisante pour permettre aux approches 'profondes' d'être efficaces. La thèse dépassera donc largement le cadre de l'apprentissage par méthodes profondes pour se rapprocher au contraire de nouvelles approches issues de la théorie statistique asymptotique.

  • Titre traduit

    A Random Matrix Approach to Large Dimensional Semi-Supervised and Transfer Learning


  • Résumé

    The purpose of the PhD thesis is to adapt the recent large dimension statistics findings in the realm of machine learning to semi-supervised and transfer learning. This will help bring these so-far mostly theoretical findings closer to practice and to concrete industrial applications. Seminal advances in the direction of semi-supervised learning have led to convincing proof-of-concepts of the strong potential of random matrix in this field. The technical proximity between semi-supervised learning and transfer learning thereby conveys a strong insurance of the interest of an extension of the random matrix framework to this branch of statistical learning. It must in particular be noted that for most tasks of practical interest, the size of the handled datasets is not sufficient for them to be efficiently treated through deep learning designs. Besides, unlike deep learning so far, the recent random matrix findings allow for a sound theoretical evaluation of the method performances, thereby providing guarantees and confidence bounds, often sought for in practical applications. We therefore believe that, beyond a mere theoretical exercise, the PhD proposal has the potential to answer realistic questions that applied machine learning is currently struggling with.