Algorithmes d'apprentissage pour les grandes masses de données : Application à la classification multi-classes et à l'optimisation distribuée asynchrone

par Bikash Joshi

Projet de thèse en Informatique

Sous la direction de Massih-Reza Amini et de Franck Iutzeler.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de AMA (equipe de recherche) depuis le 29-10-2014 .


  • Résumé

    Le déluge de données (big data) auquel nous assistons ces dernières années bouleverse la vision traditionnelle en sciences et technologies de l'information, et en particulier en apprentissage statistique. Dans de nombreux problèmes réels, en particulier associés à la toile mais pas seulement, un flux massif de données est produit continuellement. Dans cette thèse, nous sommes intéressés à l'étude des algorithmes d'apprentissage qui peuvent passer à l'échelle; nous sommes plus particulièrement intéressés à la classification multi-classe et filtrage collaboratif. Ce dernier est couramment utilisée par les fournisseurs d'Internet comme Amazon, Netflix, Yahoo! et d'autres. Cependant, avec le nombre d'utilisateurs et d'articles en constante hausse, atteindre une prédiction de grande précision est un problème difficile. Ainsi, pour cette application, nous introduisons un cadre distribué asynchrone. En outre, nous proposons une nouvelle régularisation de la fonction objective qui tient compte des interactions utilisateurs / items similaires.

  • Titre traduit

    Scalable Algorithms for Large-scale Machine Learning Problems:Application to Multi-classClassification and Asynchronous Distributed Optimization


  • Résumé

    The tremendous production of data, known as the big data phenomena, has overturned the classical view in science and information technology domains, notably in the statistical machine learning field. In many real problems, particularly associated with the Internet but not only, massive data streams are continuously produced. In this thesis we are interested in the study of learning algorithms that can pass the scale; we are more particularly interested in multi-class classification and Collaborative filtering. The latter is popularly used by internet vendors such as Amazon, Netflix, Yahoo! and others. However, with increasing number of users and items, attaining a high prediction accuracy is a computationally challenging problem. So, for this application we introduce an asynchronous distributed framework to cope up the large-scale dataset challenge. Additionally, we propose a novel regularization parameter to take into account the interaction of similar users/items when estimating the predicted ratings.