Tolérance automatique aux défaillances par points de reprise et retour en arrière dans les systèmes hautes performances à passage de messages

par Aurélien Bouteiller

Thèse de doctorat en Informatique

Sous la direction de Franck Cappello.


  • Résumé

    L'augmentation du nombre de composants des architectures hautes performances fait surgir des problèmes de fiabilité : le temps moyen entre deux fautes est désormais de moins de 10 heures. Une solution pour assurer la progression d'un calcul numérique distribué en présence de fautes est d'enregistrer périodiquement des points de reprise. Cependant, l'état de chaque processus subit le non déterminisme des évènements réseau. Aussi, un protocole de tolérance aux fautes doit assurer la possibilité de restaurer un état global légitime depuis un ensemble de points de reprise. Notre travail a pour objectif l'étude des mécanismes automatiques de tolérance aux défaillances par points de reprise pour les applications à passage de messages utilisant le standard MPI. Nous présentons un environnement logiciel permettant l'expression d'algorithmes de tolérance aux défaillances et leur comparaison équitable dans un environnement uniforme. Nous exprimons plusieurs protocoles de tolérance aux défaillances (dont deux originaux) : un utilisant des points de reprise coordonnés, deux par enregistrement de messages pessimiste et trois par enregistrement de message causal. Nous les comparons expérimentalement, identifiant ainsi une fréquence de faute au delà de laquelle les protocoles par enregistrement de messages se comportent mieux que les protocoles coordonnés. Nous décrivons enfin un modélisation du protocole pessimiste adaptée aux réseaux à très haut débit. La performance de ces réseaux implique que l'utilisation de copies mémoires intermédiaires est très pénalisante. Nous présentons les performances d'une implémentation de ce protocole.

  • Titre traduit

    Automatic checkpoint and rollback recovery based fault tolerance for message passing high performance architectures


  • Résumé

    Increasing the number of components of high performance architectures arises reliability issues: mean time between failures is now less than 10 hours. A solution to ensure progression of a numerical application hit by failures is to periodically save checkpoints. However, the state of each process depends on network's non deterministic events. Thus, a fault tolerance protocol has to ensure the ability to recover to a correct global state from a set of ckeckpoints. Our work aims to study checkpoint based automatic fault tolerance for message passing applications using the MPI standard. First we present a software environnement designed to express various families of fault tolerance algorithms and compare them in an fair and uniform testbed. We implement many fault tolerant protocols in this environment (including two originals) : one using coordinated checkpoints, two pessimistic message logging and three causal message logging. We shows through experimental comparison between all those protocol a fault frequency afterward message logging protocols are performing better than coordinated ones. Last we describe a novel modeling of pessimistic message logging focusing on very high performance networks. In those networks, using intermediate memory buffers and copies leads to high overhead. We present performances of an implementation of this protocol.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (140 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 125-[132]

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2006)219
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.