Toward an autonomic engine for scientific workflows and elastic Cloud infrastructure

par Hadrien Croubois

Thèse de doctorat en Informatique

Sous la direction de Eddy Caron.

Soutenue le 16-10-2018

à Lyon , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec École normale supérieure de Lyon (établissement opérateur d'inscription) , Laboratoire de l'informatique du parallélisme (Lyon) (laboratoire) et de Algorithms and Software Architectures for Distributed and HPC Platforms (laboratoire) .

Le président du jury était Frédéric Desprez.

Le jury était composé de Eddy Caron, Frédéric Desprez, Noël de Palma, Johan Montagnat, Luciana Arantes, Pushpinder Kaur Chouhan.

Les rapporteurs étaient Noël de Palma, Johan Montagnat.

  • Titre traduit

    Etude et conception d’un système de gestion de workflow autonomique


  • Résumé

    Les infrastructures de calcul scientifique sont en constante évolution, et l’émergence de nouvelles technologies nécessite l’évolution des mécanismes d’ordonnancement qui leur sont associé. Durant la dernière décennie, l’apparition du modèle Cloud a suscité de nombreux espoirs, mais l’idée d’un déploiement et d’une gestion entièrement automatique des plates-formes de calcul est jusque la resté un voeu pieu. Les travaux entrepris dans le cadre de ce doctorat visent a concevoir un moteur de gestion de workflow qui intègre les logiques d’ordonnancement ainsi que le déploiement automatique d’une infrastructure Cloud. Plus particulièrement, nous nous intéressons aux plates-formes Clouds disposant de système de gestion de données de type DaaS (Data as a Service). L’objectif est d’automatiser l’exécution de workflows arbitrairement complexe, soumis de manière indépendante par de nombreux utilisateurs, sur une plate-forme Cloud entièrement élastique. Ces travaux proposent une infrastructure globale, et décrivent en détail les différents composants nécessaires à la réalisation de cette infrastructure :• Un mécanisme de clustering des tâches qui prend en compte les spécificités des communications via un DaaS ;• Un moteur décentralisé permettant l’exécution des workflows découpés en clusters de tâches ;• Un système permettant l’analyse des besoins et le déploiement automatique. Ces différents composants ont fait l’objet d’un simulateur qui a permis de tester leur comportement sur des workflows synthétiques ainsi que sur des workflows scientifiques réels issues du LBMC (Laboratoire de Biologie et Modélisation de la Cellule). Ils ont ensuite été implémentés dans l’intergiciel Diet. Les travaux théoriques décrivant la conception des composants, et les résultats de simulations qui les valident, ont été publié dans des workshops et conférences de portée internationale.


  • Résumé

    The constant development of scientific and industrial computation infrastructures requires the concurrent development of scheduling and deployment mechanisms to manage such infrastructures. Throughout the last decade, the emergence of the Cloud paradigm raised many hopes, but achieving full platformautonomicity is still an ongoing challenge. Work undertaken during this PhD aimed at building a workflow engine that integrated the logic needed to manage workflow execution and Cloud deployment on its own. More precisely, we focus on Cloud solutions with a dedicated Data as a Service (DaaS) data management component. Our objective was to automate the execution of workflows submitted by many users on elastic Cloud resources.This contribution proposes a modular middleware infrastructure and details the implementation of the underlying modules:• A workflow clustering algorithm that optimises data locality in the context of DaaS-centeredcommunications;• A dynamic scheduler that executes clustered workflows on Cloud resources;• A deployment manager that handles the allocation and deallocation of Cloud resources accordingto the workload characteristics and users’ requirements. All these modules have been implemented in a simulator to analyse their behaviour and measure their effectiveness when running both synthetic and real scientific workflows. We also implemented these modules in the Diet middleware to give it new features and prove the versatility of this approach.Simulation running the WASABI workflow (waves analysis based inference, a framework for the reconstruction of gene regulatory networks) showed that our approach can decrease the deployment cost byup to 44% while meeting the required deadlines.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque Diderot . Bibliothèque électronique (Lyon).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.