Théorie des Matrices Aléatoires et Apprentissage pour le BigData

par Mohamed el amine Seddik

Projet de thèse en Traitement du signal et des images

Sous la direction de Romain Couillet et de Rémi Michel.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec L2S - Laboratoire des signaux et systèmes (laboratoire) , Signaux (equipe de recherche) et de CentraleSupélec (2015-....) (établissement de préparation de la thèse) depuis le 01-11-2017 .


  • Résumé

    L'omniprésence des grandes données et algorithmes permettant de les traiter a récemment conduit à la mise en place rapide de nouveaux algorithmes et méthodes performantes, souvent basées sur des principes élémentaires, permettant de traiter ce flux important de données. Cependant, la taille de ces données induit naturellement des problèmes de consistence des méthodes traditionnelles qui, dans beaucoup de cas, méritent d'être revisitées à l'aide d'outils théoriques mathématiques nouveaux. En effet, une compréhension plus fines des méthodes élémentaires en grandes dimensions induit naturellement des performances accrues des algorithmes pratiques qui seront utilisés demain pour traiter les grandes données. Récemment, dans le cadre de plusieurs travaux parallèles, réalisés par les thésards et stagiaires de mon groupe, nous avons établi de tels premiers résultats intéressants qui permettent d'ouvrir la voie à une compréhension de structures simples d'apprentissage statistique en grande dimension. Ces découvertes sont toutes issues d'une maitrise nouvelle de l'outil de la théorie des matrices aléatoires qui, pour la première fois dans ces travaux, a été développé dans le cadre de modèles matriciels à entrées “non linéaires”, très classiques en apprentissage. La thèse proposée poursuivra ces travaux dans un contexte plus pratique en se rapprochant encore plus de la réalité des données (structurées, images, etc.).

  • Titre traduit

    Random Matrix Theory for BigData Machine Learning


  • Résumé

    The bigdata era has driven the recent development of new algorithms and methods, often based on elementary principles allowing to handle large amounts of data. However, these large dimensional data impair the behavior of traditional methods that deserve to be revisited under the eye of more elaborate tools and methods. A better understanding of these methods in the bigdata regime indeed induces possibilities of improvements, thereby leading to the development of more efficient algorithms In the scope of several parallel works in my team, we have established primary results allowing for a new opening into the structures of simple learning methods in the large dimensional setting. These discoveries are all based on the random matrix tool. The PhD thesis will aim at going beyond these early findings to develop new methods more appropriate to practical datasets (structured data, images, etc.).