Acc?ler la pr?paration des donn?es pour l'analyse du big data

par Yongchao Tian

Thèse de doctorat en Informatique et r?seaux

Sous la direction de Marko Vukolic et de Pietro Michiardi.

Le président du jury était Guillaume Urvoy-Keller.

Le jury était composé de Refik Molva, Paolo Papotti.

Les rapporteurs étaient Elena Baralis.


  • Résumé

    Nous vivons dans un monde de big data, o? les donn?es sont g?n?r?es en grand volume, grande vitesse et grande vari?t?. Le big data apportent des valeurs et des avantages ?normes, de sorte que l?analyse des donn?es est devenue un facteur essentiel de succ?s commercial dans tous les secteurs. Cependant, si les donn?es ne sont pas analys?es assez rapidement, les b?n?fices de big data seront limit?s ou m?me perdus. Malgr? l?existence de nombreux syst?mes modernes d?analyse de donn?es ? grande ?chelle, la pr?paration des donn?es est le processus le plus long de l?analyse des donn?es, n?a pas encore re?u suffisamment d?attention. Dans cette th?se, nous ?tudions le probl?me de la fa?on d?acc?l?rer la pr?paration des donn?es pour le big data d?analyse. En particulier, nous nous concentrons sur deux grandes ?tapes de pr?paration des donn?es, le chargement des donn?es et le nettoyage des donn?es. Comme premi?re contribution de cette th?se, nous concevons DiNoDB, un syst?me SQL-on-Hadoop qui r?alise l?ex?cution de requ?tes ? vitesse interactive sans n?cessiter de chargement de donn?es. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de donn?es et n?cessitent en m?me temps des analyses interactives ad hoc efficaces sur les donn?es temporaires g?n?r?es dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, n?cessitant de charger l?ensemble des donn?es temporaires pour obtenir des requ?tes interactives. En revanche, DiNoDB ?vite la phase co?teuse de chargement et de transformation des donn?es. L?innovation importante de DiNoDB est d?int?grer ? la phase de traitement par lots la cr?ation de m?tadonn?es que DiNoDB exploite pour acc?l?rer les requ?tes interactives. La deuxi?me contribution est un syst?me de flux distribu? de nettoyage de donn?es, appel? Bleach. Les approches de nettoyage de donn?es ?volutives existantes s?appuient sur le traitement par lots pour am?liorer la qualit? des donn?es, qui demandent beaucoup de temps. Nous ciblons le nettoyage des donn?es de flux dans lequel les donn?es sont nettoy?es progressivement en temps r?el. Bleach est le premier syst?me de nettoyage qualitatif de donn?es de flux, qui r?alise ? la fois la d?tection des violations en temps r?el et la r?paration des donn?es sur un flux de donn?es sale. Il s?appuie sur des structures de donn?es efficaces, compactes et distribu?es pour maintenir l??tat n?cessaire pour nettoyer les donn?es et prend ?galement en charge la dynamique des r?gles. Nous d?montrons que les deux syst?mes r?sultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avanc?es dans nos ?valuations exp?rimentales, et peuvent aider les chercheurs ? r?duire consid?rablement leur temps consacr? ? la pr?paration des donn?es.

  • Titre traduit

    Accelerating data preparation for big data analytics


  • Résumé

    We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.