Thèse soutenue

Gestion distribuée de workflows scientifiques pour le phénotypage des plantes à haut débit

FR  |  
EN
Auteur / Autrice : Gaetan Heidsieck
Direction : Esther Pacitti-ValduriezFrançois Tardieu
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/12/2020
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Examinateurs / Examinatrices : Esther Pacitti-Valduriez, François Tardieu, Gabriel Antoniu, Manuel Ruiz, Marianne Huchard, Christophe Pradal
Rapporteurs / Rapporteuses : Gabriel Antoniu, Manuel Ruiz

Résumé

FR  |  
EN

Dans de nombreux domaines scientifiques, les expériences numériques nécessitent généralement de nombreuses étapes de traitement ou d'analyse sur d'énormes ensembles de données. Elles peuvent être représentées comme des flux de travail scientifiques. Ces flux de travail facilitent la modélisation, la gestion et l'exécution d'activités de calcul liées par des dépendances de données. Comme la taille des données traitées et la complexité des calculs ne cessent d'augmenter, ces flux de travail deviennent orientés-données. Afin d'exécuter ces flux de travail dans un délai raisonnable, ils doivent être déployés dans un environnement informatique distribué à haute performance, tel que le cloud. Le phénotypage des plantes vise à capturer les caractéristiques des plantes, telles que les caractéristiques morphologiques, topologiques et phénologiques. Des plateformes de phénotypage à haut débit ont vu le jour pour accélérer l'acquisition de données de phénotypage dans des conditions contrôlées (par exemple en serre) ou en plein champ. Ces plates-formes génèrent des téraoctets de données utilisées en sélection et en biologie végétale. Ces ensembles de données sont stockés dans différents sites géodistribués. Les scientifiques peuvent utiliser un système de gestion du flux de travail scientifique (SWMS) pour gérer l'exécution du flux de travail sur un cloud multisite. Dans le domaine des sciences biologiques, il est courant que les utilisateurs des flux de travail réutilisent d'autres les analyses ou des données générées par d'autres utilisateurs. La réutilisation et la réorientation des flux de travail permettent à l'utilisateur de développer de nouvelles analyses plus rapidement. En outre, un utilisateur peut avoir besoin d'exécuter un flux de travail plusieurs fois avec différents ensembles de paramètres et de données d'entrée pour analyser l'impact d'une étape expérimentale quelconque, représentée comme un fragment du flux de travail. Dans les deux cas, certains fragments du flux de travail peuvent être exécutés plusieurs fois, ce qui peut être très consommateur de ressources et inutilement long. La ré-exécution du flux de travail peut être évitée en stockant les résultats intermédiaires de ces fragments et en les réutilisant dans des exécutions ultérieures.Dans cette thèse, nous proposons une solution de mise en cache adaptative pour l'exécution efficace de flux de travail orientés-données dans des clouds monosites et multisites. En s'adaptant aux variations des temps d'exécution des tâches, notre solution peut maximiser la réutilisation des données intermédiaires produites par les flux de travail de plusieurs utilisateurs. Notre solution est basée sur une nouvelle architecture de SWMS qui gère automatiquement le stockage et la réutilisation des données intermédiaires. La gestion du cache intervient au cours de deux étapes principales : le prétraitement des flux de travail, pour supprimer tous les fragments du flux de travail qui n'ont pas besoin d'être exécutés ; et le provisionnement du cache, pour décider au moment de l'exécution quelles données intermédiaires doivent être mises en cache. Nous proposons un algorithme adaptatif de mise en cache qui tient compte des variations des temps d'exécution des tâches et de la taille des données. Nous avons évalué notre solution en l'implémentant dans OpenAlea et en réalisant des expériences approfondies sur des données réelles avec une application complexe orientés-données de phénotypage de plantes.Nos principales contributions sont i) une architecture SWMS pour gérer les algorithmes d’ordonancement utilisant le cache lors de l'exécution de flux de travail dans des clouds monosites et multisites, ii) un modèle de coût qui inclut les coûts financiers et temporels, iii) deux algorithmes de d’ordonancement adapté au cache, en monosite et multisite clouds, et iv) une validation expérimentale sur une application de phénotypage de plantes orienté-données.