Nouveaux Protocoles de Tolérances aux Fautes pour les Applications MPI du Calcul Haute Performance

par Amina Guermouche

Thèse de doctorat en Informatique

Sous la direction de Franck Cappello.

Soutenue le 06-12-2011

à Paris 11 , dans le cadre de Ecole doctorale Informatique de Paris-Sud , en partenariat avec Laboratoire de recherche en informatique (Orsay, Essonne) (laboratoire) .


  • Résumé

    Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de plus en plus important. Les protocoles de tolérance aux fautes existants ne sont pas adaptés à ces architectures car soit ils forcent un redémarrage global (protocoles de sauvegarde de points de reprise coordonnés) soit ils forcent l'enregistrement de tous les messages (protocoles à enregistrement de messages). Nous avons étudié les caractéristiques des protocoles existants. Dans un premier temps, nous avons étudié le déterminisme des applications, étant donné que les protocoles existants supposent des exécutions non déterministes ou déterministes par morceaux. Dans notre étude, nous nous sommes intéressés au modèle par échange de messages, et plus précisément aux applications MPI. Nous avons analysé 26 applications MPI et avons mis avant une nouvelle caractéristique appelée "déterminisme des émissions" qui correspond à la majorité des applications étudiées. Dans un second temps, nous nous sommes intéressés aux schémas de communications des applications afin d'étudier l'existence des groupes de processus dans ces schémas. L'étude a montré que pour la plupart des applications, il est possible de créer des groupes de processus de façon à minimiser la taille des groupes et le volume des messages inter-groupe. A partir de là nous avons proposé deux protocoles de tolérance aux fautes. Le premier est un protocole de sauvegarde de points de reprise non coordonnés pour les applications à émissions déterministes qui évite l'effet domino en n'enregistrant qu'un sous ensemble des messages de l'application. Nous avons également adapté le protocole pour l'utiliser sur des groupes de processus. Par la suite, nous avons proposé HydEE, un protocole hiérarchique fondé sur le déterminisme des émissions et les groupes de processus. Il combine un protocole de sauvegarde de points de reprise coordonnés au sein des groupes à un protocole à enregistrement de messages entre les groupes.

  • Titre traduit

    New Fault Tolerance Protocols for MPI HPC Applications


  • Résumé

    With the evolution of parallel computers, the need for fault tolerance protocols is becoming increasingly important. The existing fault tolerance protocols are not adapted to thèse architectures because they either force a global restard (coordinated checkpointing protocols) or all message logging (message logging protocols). We studied the characteristics of the existing protocols. We first studied the determinism of the applications, since existing protocols assumenon deterministic or piecewise deterministic executions. In our study, we examined the message passing model, and more specifically MPI applications. We have analyzed26 MPI applications and have put forward a new characteristic called "send-determinism" which corresponds to moststudied applications. In a second step, we studied the communication patterns of the applications to study the existence of clusters of processes in these patterns. The study showed that for most applications, it is possible to create clusters of processes to minimize the size of clusters and the volume of inter-cluster messages. Then we designed two fault tolérance protocols. The first one is an uncoordinated checkpointing protocol which is based on the send-deterministic assumption and avoids emissions deterministic domino effect while logging only a subset of the application messages. We have also adapted the protocol to clusters of processes. Then, we proposed HydEE, a hierarchical protocol that is lso based on the send-deterministic assumption and that is used on clusters of processes. It combines coordinated checkpointing protocol inside clusters to a message logging protocol for inter-cluster messages.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud 11. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.