Experimental Methods for the Evaluation of Big Data Systems

par Abdulqawi Saif

Thèse de doctorat en Informatique

Sous la direction de Ye-Qiong Song et de Lucas Nussbaum.

Le président du jury était Marine Minier.

Le jury était composé de Ye-Qiong Song, Lucas Nussbaum, Christophe Cérin, Jalil Boukhobza, Christine Morin.

Les rapporteurs étaient Christophe Cérin, Jalil Boukhobza.

  • Titre traduit

    Méthodes expérimentales pour l'évaluation des systèmes Big Data


  • Résumé

    À l’ère du big data, de nombreux systèmes et applications sont créés pour collecter, stocker et analyser des données volumineuses dans des domaines divers. Bien que les systèmes big data fassent l’objet de multiples évaluations au cours de leur cycle de développement, les secteurs de recherches public et privé encouragent les chercheurs à faire des expérimentations supplémentaires afin d’assurer la qualité de leurs services et comprendre leur performance dans des contextes et des configurations variées. Cependant, les défis expérimentaux des systèmes big data ne sont pas triviaux. Alors que de nombreux travaux de recherche utilisent encore de vieilles méthodes expérimentales pour faire face à de tels défis, nous pensons que l’activité d’expérimentation peut être améliorée en proposant des méthodes expérimentales flexibles et à jour. Dans cette thèse, nous abordons des défis particuliers pour améliorer le contexte expérimental et l’observabilité des expériences big data. Premièrement, nous permettons la personnalisation de la performance de ressources environnementales où les expériences s’exécutent, en encourageant les chercheurs à effectuer des expériences à l’échelle sur des configurations hétérogènes. Nous contribuons ensuite aux outils expérimentaux IOscope et MonEx pour améliorer l’observabilité. IOscope permet d’effectuer des observations de bas niveau sur la pile d’entrée/sortie afin de détecter d’éventuels problèmes de performance sur l’environnement d’exécution. IOscope est développé pour convaincre que les techniques d’évaluation de haut niveau doivent être accompagnées par ces outils complémentaires afin de comprendre la performance. En revanche, le framework MonEx fonctionne aux niveaux supérieurs pour faciliter la collecte de données expérimentales. MonEx est le premier outil qui fait du monitoring autour des expériences indépendamment des environnements expérimentaux sous-jacents. Nous appliquons enfin des statistiques pour améliorer les conceptions expérimentales, en réduisant le nombre de scénarios expérimentaux et en obtenant un ensemble raffiné de facteurs expérimentaux aussi rapidement que possible. Enfin, toutes les contributions se complètent pour faciliter l’activité d’expérimentation en travaillant sur presque toutes les phases du cycle de vie des expériences big data.


  • Résumé

    In the era of big data, many systems and applications are created to collect, to store, and to analyze massive data in multiple domains. Although those – big data systems – are subjected to multiple evaluations during their development life-cycle, academia and industry encourage further experimentation to ensure their quality of service and to understand their performance under various contexts and configurations. However, the experimental challenges of big data systems are not trivial. While many pieces of research still employ legacy experimental methods to face such challenges, we argue that experimentation activity can be improved by proposing flexible experimental methods. In this thesis, we address particular challenges to improve experimental context and observability for big data experiments. We firstly enable experiments to customize the performance of their environmental resources, encouraging researchers to perform scalable experiments over heterogeneous configurations. We then introduce two experimental tools: IOscope and MonEx to improve observability. IOscope allows performing low-level observations on the I/O stack to detect potential performance issues in target systems, convincing that the high-level evaluation techniques should be accompanied by such complementary tools to understand systems’ performance. In contrast, MonEx framework works on higher levels to facilitate experimental data collection. MonEx opens directions to practice experiment-based monitoring independently from the underlying experimental environments. We finally apply statistics to improve experimental designs, reducing the number of experimental scenarios and obtaining a refined set of experimental factors as fast as possible. At last, all contributions complement each other to facilitate the experimentation activity by working almost on all phases of big data experiments’ life-cycle.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Lorraine. Direction de la documentation et de l'édition. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.