Thèse soutenue

Fiabilité et traitement de la volatilité dans les systèmes de calcul global

FR  |  
EN
Auteur / Autrice : Pierre Lemarinier
Direction : Joffroy Beauquier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Les systèmes de calcul agrègent de plus en plus de processeurs et sont par conséquent plus fréquemment affectés par des pannes franches. Les applications de calcul à passage de messages sont en grande partie développées selon la norme MPI. De nombreux travaux sur la tolérance aux pannes automatique et transparente pour les applications ont été menés au sein des librairies MPI. Tous ces travaux sont basés sur des techniques de points de reprise, coordonnés ou non coordonnés. Néanmoins aucune comparaison entre les différents protocoles n'a été réalisée en terme de coût et d'impact sur les performances des applications. Nous proposons dans cette étude la première comparaison entre ces différents protocoles. Dans un premier temps, nous décrivons dans un modèle commun un protocole à enregistrement de message pessimiste distant, un protocole à enregistrement de messages pessimiste sur l'émetteur, un protocole à enregistrement de messages causal ainsi que deux protocoles à points de reprise coordonnés : un protocole non bloquant et un protocole bloquant. La deuxième partie de cette thèse décrit les implémentations des quatre premiers protocoles dans la librairie MPICH et l'implémentation du dernier protocole dans la librairie MPICH2. Nous résumons les résultats des expériences menées sur les protocoles à enregistrement de messages pessimistes puis nous exposons en détail les résultats des mesures de performances réalisées sur les implémentations des protocoles causal et à points de reprise coordonnés à l'aide de micro benchmarks et d'applications numériques, pour différentes plateformes de calcul.