Efficient Big Data Processing on Large-Scale Shared Platforms ˸ managing I/Os and Failure | Theses.fr

Orcun Yildiz

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Sur l'efficacité des traitements Big Data sur les plateformes partagées à grandes échelle ˸ gestion des entrées-sorties et des pannes

FR |

EN

Auteur / Autrice :	Orcun Yildiz
Direction :	Gabriel Antoniu, Ibrahim Shadi
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/12/2017
Etablissement(s) :	Rennes, École normale supérieure
Ecole(s) doctorale(s) :	École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes)
Partenaire(s) de recherche :	Laboratoire : École normale supérieure - Rennes - Institut de Recherche en Informatique et Systèmes Aléatoires - Scalable Storage for Clouds and Beyond
Jury :	Examinateurs / Examinatrices : Ibrahim Shadi, Luciana Arantes, François Taïani
	Rapporteurs / Rapporteuses : Olivier Beaumont, Sébastien Monnet

Mots clés

FR |

EN

Mots clés contrôlés

Calcul intensif (informatique)

Données massives

Mots clés libres

Résumé

FR |

EN

En 2017 nous vivons dans un monde régi par les données. Les applications d’analyse de données apportent des améliorations fondamentales dans de nombreux domaines tels que les sciences, la santé et la sécurité. Cela a stimulé la croissance des volumes de données (le déluge du Big Data). Pour extraire des informations utiles à partir de cette quantité énorme d’informations, différents modèles de traitement des données ont émergé tels que MapReduce, Hadoop, et Spark. Les traitements Big Data sont traditionnellement exécutés à grande échelle (les systèmes HPC et les Clouds) pour tirer parti de leur puissance de calcul et de stockage. Habituellement, ces plateformes à grande échelle sont utilisées simultanément par plusieurs utilisateurs et de multiples applications afin d’optimiser l’utilisation des ressources. Bien qu’il y ait beaucoup d’avantages à partager de ces plateformes, plusieurs problèmes sont soulevés dès lors qu’un nombre important d’utilisateurs et d’applications les utilisent en même temps, parmi lesquels la gestion des E / S et des défaillances sont les principales qui peuvent avoir un impact sur le traitement efficace des données.Nous nous concentrons tout d’abord sur les goulots d’étranglement liés aux performances des E/S pour les applications Big Data sur les systèmes HPC. Nous commençons par caractériser les performances des applications Big Data sur ces systèmes. Nous identifions les interférences et la latence des E/S comme les principaux facteurs limitant les performances. Ensuite, nous nous intéressons de manière plus détaillée aux interférences des E/S afin de mieux comprendre les causes principales de ce phénomène. De plus, nous proposons un système de gestion des E/S pour réduire les dégradations de performance que les applications Big Data peuvent subir sur les systèmes HPC. Par ailleurs, nous introduisons des modèles d’interférence pour les applications Big Data et HPC en fonction des résultats que nous obtenons dans notre étude expérimentale concernant les causes des interférences d’E/S. Enfin, nous exploitons ces modèles afin de minimiser l’impact des interférences sur les performances des applications Big Data et HPC. Deuxièmement, nous nous concentrons sur l’impact des défaillances sur la performance des applications Big Data en étudiant la gestion des pannes dans les clusters MapReduce partagés. Nous présentons un ordonnanceur qui permet un recouvrement rapide des pannes, améliorant ainsi les performances des applications Big Data.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Sur l'efficacité des traitements Big Data sur les plateformes partagées à grandes échelle ˸ gestion des entrées-sorties et des pannes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Sur l'efficacité des traitements Big Data sur les plateformes partagées à grandes échelle ˸ gestion des entrées-sorties et des pannes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses