Application-based fault tolerance for numerical linear algebra at large scale

par Daniel TORRES GONZALEZ

Projet de thèse en Doctorat informatique

Sous la direction de Laure Petrucci.

Thèses en préparation à Sorbonne Paris Cité , dans le cadre de École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) depuis le 25-10-2018 .


  • Résumé

    Avec les systèmes de calcul à grande échelle, la tolérance aux défaillances devient une question prépondérante [0]. La conception d'algorithmes intrinsèquement tolérants aux pannes, qui peuvent rétablir un état normal et continuer le calcul lorsque les pannes surviennent, attire l'attention de la communauté. Pour permettre cela, un nouveau modèle de tolérance aux pannes, capable de particulièrement bien passer à l'échelle, a été proposé au comité de normalisation MPI (un paradigme de programmation des machines parallèles qui est un standard de fait depuis 25 ans) [1]. Il en existe aujourd'hui une implémentation dans OpenMPI. Cette thèse a en particulier pour objectif de concevoir des noyaux de calcul, c'est-à-dire des opérations élémentaires de calcul, qui seraient tolérant aux pannes. Ainsi, l'objectif est de fournir des routines les plus utilisées des bibliothèques ScaLAPACK ou PLASMA (les équivalents parallèles et distribués de LAPACK) tolérantes aux pannes, permettant de s'en servir comme briques de base d'applications parallèles qui ainsi seraient facilement tolérantes aux pannes. En particulier, une nouvelle génération d'algorithmes dits "à évitement de communications" présentent des caractéristiques particulièrement attractives [2, 3, 4] : les communications ayant un coût en performance très élevé comparativement au coût des calculs, ces algorithmes font un nombre (prouvé) minimal de communications, au prix d'opérations de calcul supplémentaires. Ces calculs introduisent une forme de redondance des topologies de communications particulières dont il est possible de déduire des propriétés algébriques du calcul qui permettent d'obtenir des propriétés de tolérance aux pannes à un surcoût faible. [0] DONGARRA, Jack, BECKMAN, Pete, MOORE, Terry, et al. The international exascale software project roadmap. International Journal of High Performance Computing Applications, 2011, vol. 25, no 1, p. 3-60.


  • Pas de résumé disponible.