Big Data : le nouvel enjeu de l'apprentissage à partir des données massives.

par Moufida Rehab

Thèse de doctorat en Informatique

Sous la direction de Faouzi Boufares.

Thèses en préparation à Sorbonne Paris Cité , dans le cadre de École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) depuis le 19-12-2012 .


  • Résumé

    Le croisement du phénomène de mondialisation et du développement continu des technologies de l’information a débouché sur une explosion des volumes de données disponibles. Ainsi, les capacités de production, de stockage et de traitement des données ont franchi un tel seuil qu’un nouveau terme a été mis en avant : Big Data. L’augmentation des quantités de données à considérer, nécessite la mise en oeuvre de nouveaux outils de traitement. En effet, les outils classiques d’apprentissage sont peu adaptés à ce changement de volumétrie tant au niveau de la complexité de calcul qu’à la durée nécessaire au traitement. Ce dernier, étant le plus souvent centralisé et séquentiel, ce qui rend les méthodes d’apprentissage dépendantes de la capacité de la machine utilisée. Par conséquent, les difficultés pour analyser un grand jeu de données sont multiples. Dans le cadre de cette thèse, nous nous sommes intéressés aux problèmes rencontrés par l’apprentissage supervisé sur de grands volumes de données. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d’exploiter au mieux l’ensemble des données disponibles. L’objectif de cette thèse est d’explorer la piste qui consiste à concevoir une version scalable de ces méthodes classiques. Cette piste s’appuie sur la distribution des traitements et des données pour augmenter la capacité des approches sans nuire à leurs précisions. Notre contribution se compose de deux parties proposant chacune une nouvelle approche d’apprentissage pour le traitement massif de données. Ces deux contributions s’inscrivent dans le domaine de l’apprentissage prédictif supervisé à partir des données volumineuses telles que la Régression Linéaire Multiple et les méthodes d’ensemble comme le Bagging. La première contribution nommée MLR-MR, concerne le passage à l’échelle de la Régression Linéaire Multiple à travers une distribution du traitement sur un cluster de machines. Le but est d’optimiser le processus du traitement ainsi que la charge du calcul induite, sans changer évidement le principe de calcul (factorisation QR) qui permet d’obtenir les mêmes coefficients issus de la méthode classique. La deuxième contribution proposée est appelée "BaggingMR_PR_D" (Bagging based MapReduce with Distributed PRuning), elle implémente une approche scalable du Bagging, permettant un traitement distribué sur deux niveaux : l’apprentissage et l’élagage des modèles. Le but de cette dernière est de concevoir un algorithme performant et scalable sur toutes les phases de traitement (apprentissage et élagage) et garantir ainsi un large spectre d’applications. Ces deux approches ont été testées sur une variété de jeux de données associées à des problèmes de régression. Le nombre d’observations est de plusieurs millions. Nos résultats expérimentaux démontrent l’efficacité et la rapidité de nos approches basées sur la distribution de traitement dans le Cloud Computing.

  • Titre traduit

    Big Data : the new challenge Learning from data Massive.


  • Résumé

    In recent years we have witnessed a tremendous growth in the volume of data generated partly due to the continuous development of information technologies. Managing these amounts of data requires fundamental changes in the architecture of data management systems in order to adapt to large and complex data. Single-based machines have not the required capacity to process such massive data which motivates the need for scalable solutions. This thesis focuses on building scalable data management systems for treating large amounts of data. Our objective is to study the scalability of supervised machine learning methods in large-scale scenarios. In fact, in most of existing algorithms and datastructures, there is a trade-off between efficiency, complexity, scalability. To address these issues, we explore recent techniques for distributed learning in order to overcome the limitations of current learning algorithms. Our contribution consists of two new machine learning approaches for large scale data. The first contribution tackles the problem of scalability of Multiple Linear Regression in distributed environments, which permits to learn quickly from massive volumes of existing data using parallel computing and a divide and-conquer approach to provide the same coefficients like the classic approach. The second contribution introduces a new scalable approach for ensembles of models which allows both learning and pruning be deployed in a distributed environment. Both approaches have been evaluated on a variety of datasets for regression ranging from some thousands to several millions of examples. The experimental results show that the proposed approaches are competitive in terms of predictive performance while reducing significantly the time of training and prediction.