Analyse de performances automatiques pour applications parallèles hybrides

par Anton Daumen

Projet de thèse en Informatique

Sous la direction de Gaël Thomas, Patrick Carribault et de François Trahay.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Télécom SudParis (France) (laboratoire) , ACMES (equipe de recherche) et de Institut national des télécommunications (Evry) (établissement de préparation de la thèse) depuis le 30-09-2018 .


  • Résumé

    Les évolutions des supercalculateurs rendent leurs exploitations difficiles. Du fait de la complexité des architectures matérielles, de nombreux effets influencent fortement les performances des applications parallèles (effets NUMA, effets de cache, vectorisation, etc.). Par ailleurs, les modèles de programmation hybrides (par exemple MPI+Threads) se généralisent et augmentent le nombre de supports d'exécution susceptibles d'avoir un impact sur les performances. Enfin, l'environnement d'exécution d'une application peut influencer fortement ses performances : par exemple, les applications qui s'exécutent sur le même supercalculateur peuvent engendrer des contentions sur le réseau. L'objectif principal de cette thèse est de développer des algorithmes d'analyse de performance capables de détecter de manière automatique les problèmes de performance d'une application parallèle. Une fois le symptôme détecté, ces algorithmes devront rechercher la source du problème, puis indiquer à l'utilisateur des voies pour corriger le problème.

  • Titre traduit

    Automatic performance analysis for hybrid parallel applications


  • Résumé

    The evolution of supercomputers makes their operations difficult. Due to the complexity of hardware architectures, many effects strongly influence the performance of parallel applications (NUMA effects, cache effects, vectorization, etc.). In addition, hybrid programming models (e.g. MPI+Threads) are becoming more widespread and are increasing the number of runtimes that can have an impact on performance. Finally, an application's runtime environment can strongly influence its performance: for example, applications running on the same supercomputer can cause network contentions. The main objective of this thesis is to develop performance analysis algorithms capable of automatically detecting performance problems in a parallel application. Once the symptom is detected, these algorithms will have to find the source of the problem, then indicate to the user ways to correct the problem.