Fault-tolerant and energy-aware algorithms for workflows and real-time systems

par Li Han

Thèse de doctorat en Informatique

Sous la direction de Yves Robert et de Jing Liu.

Soutenue le 06-05-2020

à Lyon en cotutelle avec l'East China normal university (Shanghai) , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec École normale supérieure de Lyon (établissement opérateur d'inscription) , Laboratoire de l'informatique du parallélisme (Lyon) (laboratoire) et de Optimisation des ressources : modèles, algorithmes et ordonnancement (laboratoire) .

Le président du jury était Brice Goglin.

Le jury était composé de Yves Robert, Jing Liu, Brice Goglin, Alix Munier-Kordon, Denis Trystram, Véronika Rehn-Sonigo, Robert Speck, Frédéric Vivien.

Les rapporteurs étaient Alix Munier-Kordon, Denis Trystram.

  • Titre traduit

    Algorithmes tolérants aux pannes et minimisant l'énergie pour les systèmes de tâches et les systèmes temps-réel


  • Résumé

    Cette thèse se concentre sur deux problèmes majeurs dans le contexte du calcul haute performance:la résilience et la consommation d'énergie.Le nombre d'unités de calcul dans les superordinateurs a considérablement augmenté ces dernièresannées, entraînant une augmentation de la fréquence des pannes. Le recours à des mécanismes detolérance aux pannes est maintenant critique pour les applications utilisant un grand nombre decomposants pendant une période de temps significative. Il est par ailleurs nécessaire de minimiserla consommation énergétique pour des raisons budgétaires et environnementales. Ceci est d'autantplus important que la tolérance aux pannes nécessite une redondance en temps ou en espace quiinduit un surcoût énergétique. Par ailleurs, certaines technologies qui réduisant la consommationd'énergie ont des effets négatifs sur les performances et la résilience.Nous concevons des algorithmes d'ordonnancement pour étudier les compromis entre performance,résilience et consommation d'énergie. Dans une première partie, nous nous concentrons surl'ordonnancement des graphes de tâches sujets à des pannes. La question est alors de décider quelletâche sauvegarder afin de minimiser le temps d'exécution. Nous concevons des solutions optimalespour des classes de graphes et fournissons des heuristiques pour le cas général. Nous considéronsdans une deuxième partie l'ordonnancement de tâches périodiques indépendantes sujettes à deserreurs silencieuses dans un contexte temps-réel. Nous étudions combien de réplicats sontnécessaires et l'interaction entre dates butoir, fiabilité, et minimisation d'énergie.


  • Résumé

    This thesis is focused on the two major problems in the high performance computing context: resilience and energyconsumption.To satisfy the computing power required by modern scientific research, the number of computing units insupercomputers increases dramatically in the past years. This leads to more frequent errors than expected. Obviously,failure handling is critical for highly parallel applications that use a large number of components for a significant amountof time. Otherwise, one may spend infinite time re-executing. At the other side, power management is necessary due toboth monetary and environmental constraints. Especially because resilience often calls for redundancy in time and/or inspace , which in turn consumes extra energy. In addition, technologies that reduce energy consumption often havenegative effects on performance and resilience.In this context, we re-design scheduling algorithms to investigate trade-offs between performance, resilience and energyconsumption. The first part is focused around task graph scheduling and fail-stop errors. Which task should becheckpointed (redundancy in time) in order to minimize the total execution time? The objective is to design optimalsolutions for special classes of task graphs, and to provide general-purpose heuristics for arbitrary ones. Then in thesecond part of the thesis, we consider periodically independent task sets, which is the context of real-time scheduling,and silent errors. We investigate the number of replicas (redundancy in space) that are needed, and the interplay betweendeadlines, energy minimization and reliability.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque Diderot . Bibliothèque électronique (Lyon).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.