Efficient placement design and storage cost saving for big data workflow in cloud datacenters

Sonia Ikken

Thèse Année : 2017

Efficient placement design and storage cost saving for big data workflow in cloud datacenters

Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du big data dans les centres de calcul de type cloud

(1, 2, 3)

1
2
3

Sonia Ikken

Fonction : Auteur
PersonId : 1371569
IdHAL : sonia-ikken
ORCID : 0000-0003-1853-2390

Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux

Département Réseaux et Services Multimédia Mobiles

Centre National de la Recherche Scientifique

Résumé

The typical cloud big data systems are the workflow-based including MapReduce which has emerged as the paradigm of choice for developing large scale data intensive applications. Data generated by such systems are huge, valuable and stored at multiple geographical locations for reuse. Indeed, workflow systems, composed of jobs using collaborative task-based models, present new dependency and intermediate data exchange needs. This gives rise to new issues when selecting distributed data and storage resources so that the execution of tasks or job is on time, and resource usage-cost-efficient. Furthermore, the performance of the tasks processing is governed by the efficiency of the intermediate data management. In this thesis we tackle the problem of intermediate data management in cloud multi-datacenters by considering the requirements of the workflow applications generating them. For this aim, we design and develop models and algorithms for big data placement problem in the underlying geo-distributed cloud infrastructure so that the data management cost of these applications is minimized. The first addressed problem is the study of the intermediate data access behavior of tasks running in MapReduce-Hadoop cluster. Our approach develops and explores Markov model that uses spatial locality of intermediate data blocks and analyzes spill file sequentiality through a prediction algorithm. Secondly, this thesis deals with storage cost minimization of intermediate data placement in federated cloud storage. Through a federation mechanism, we propose an exact ILP algorithm to assist multiple cloud datacenters hosting the generated intermediate data dependencies of pair of files. The proposed algorithm takes into account scientific user requirements, data dependency and data size. Finally, a more generic problem is addressed in this thesis that involve two variants of the placement problem: splittable and unsplittable intermediate data dependencies. The main goal is to minimize the operational data cost according to inter and intra-job dependencies

Les workflows sont des systèmes typiques traitant le big data. Ces systèmes sont déployés sur des sites géo-distribués pour exploiter des infrastructures cloud existantes et réaliser des expériences à grande échelle. Les données générées par de telles expériences sont considérables et stockées à plusieurs endroits pour être réutilisées. En effet, les systèmes workflow sont composés de tâches collaboratives, présentant de nouveaux besoins en terme de dépendance et d'échange de données intermédiaires pour leur traitement. Cela entraîne de nouveaux problèmes lors de la sélection de données distribuées et de ressources de stockage, de sorte que l'exécution des tâches ou du job s'effectue à temps et que l'utilisation des ressources soit rentable. Par conséquent, cette thèse aborde le problème de gestion des données hébergées dans des centres de données cloud en considérant les exigences des systèmes workflow qui les génèrent. Pour ce faire, le premier problème abordé dans cette thèse traite le comportement d'accès aux données intermédiaires des tâches qui sont exécutées dans un cluster MapReduce-Hadoop. Cette approche développe et explore le modèle de Markov qui utilise la localisation spatiale des blocs et analyse la séquentialité des fichiers spill à travers un modèle de prédiction. Deuxièmement, cette thèse traite le problème de placement de données intermédiaire dans un stockage cloud fédéré en minimisant le coût de stockage. A travers les mécanismes de fédération, nous proposons un algorithme exacte ILP afin d’assister plusieurs centres de données cloud hébergeant les données de dépendances en considérant chaque paire de fichiers. Enfin, un problème plus générique est abordé impliquant deux variantes du problème de placement lié aux dépendances divisibles et entières. L'objectif principal est de minimiser le coût opérationnel en fonction des besoins de dépendances inter et intra-job

Mots clés

Big data workflow Data access and placement Storage cost minimization Cloud datacenters Hadoop MapReduce Data-driven application Data dependency Optimization

Optimisation Données de dépendances Application dirigée par les données Hadoop MapReduce Centres de données cloud Workflow du big data Accès et placement des données Minimisation des coûts de stockage

Domaines

Réseaux et télécommunications [cs.NI]

Fichier principal

these-Sonia-IKKEN.pdf (5.79 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02412887

Soumis le : lundi 16 décembre 2019-01:05:26

Dernière modification le : vendredi 5 avril 2024-11:07:28

Archivage à long terme le : mardi 17 mars 2020-12:56:08

Dates et versions

tel-02412887 , version 1 (16-12-2019)

Identifiants

HAL Id : tel-02412887 , version 1

Citer

Sonia Ikken. Efficient placement design and storage cost saving for big data workflow in cloud datacenters. Networking and Internet Architecture [cs.NI]. Institut National des Télécommunications, 2017. English. ⟨NNT : 2017TELE0020⟩. ⟨tel-02412887⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM CNRS STAR TELECOM-SUDPARIS UNIV-PARIS-SACLAY

198 Consultations

219 Téléchargements

Efficient placement design and storage cost saving for big data workflow in cloud datacenters

Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du big data dans les centres de calcul de type cloud

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager