Contribution à l'étude des environnements d'exécution parallèle fortement dynamiques à passage de messages
Auteur / Autrice : | George Bosilca |
Direction : | Franck Cappello |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2004 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020) |
autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) | |
Jury : | Président / Présidente : Joffroy Beauquier |
Examinateurs / Examinatrices : Franck Cappello, Joffroy Beauquier, Frédéric Desprez, Serge Petiton, Olivier Richard | |
Rapporteurs / Rapporteuses : Frédéric Desprez, Serge Petiton |
Mots clés
Résumé
Le calcul haute performance sur des architectures parallèles utilise différentes approches en fonction du modèle de mémoire de l'architecture, du niveau d'abstraction du langage de programmation et de la nature de l'application. La première partie de cette thèse est consacrée à la présentation d'un modèle d'exécution original basé sur l'appel de procédure à distance ou RPC (Remote Procedure Call), appelé Out-of-order execution parallel Virtual Machine (OVM). Le substrat a été construit suivant trois directions : portabilité via un modèle unique de mémoire, équilibrage de charge en utilisant un support modulaire et haute performance grâce à plusieurs optimisations. Je présente ici l'architecture générale d'OVM et je démontre ses performances pour différents types d'applications parallèles-: régulières, nécessitant un équilibrage de charge et des contraintes temps-réel. Avec l'augmentation du nombre de processeurs, les déconnexions et les disparitions des nœuds deviennent des évènements courants. La seconde partie est dédiée à l'environnement MPICH-V. Cet environnement de tolérance automatique des fautes est basé sur un checkpoint non coordonnée et un logging de messages distribué. MPICH-V se base sur des mémoires de canal, des serveurs de checkpoint et sur de preuves théoriques de ses protocoles. Se concentrant sur les mémoires de canal, des résultats sont présentés et analysés, pour des applications parallèles non triviales. Les résultats expérimentaux démontrent la bonne scalabilité et un haut degré de tolérance aux fautes.