Apprentissage pour le contrôle de plateformes parallèles à large échelle

par Valentin Reis

Thèse de doctorat en Informatique

Sous la direction de Denis Trystram et de Jérôme Lelong.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) .


  • Résumé

    Fournir les infrastructures de calcul nécessaires à la résolution des problèmes com-plexes de la société moderne constitue un défistratégique. Les organisations y répondent classiquement en mettant en place de larges infrastructures de calcul parallèle et distribué. Les vendeurs de systèmes de Calcul Hautes Performances sont incités par la compétition à produire toujours plus de puissance de calcul et de stockage, ce qui mène à des plateformes ”Petascale“ spécifiques et sophistiquées, et bientôt à des machines ”Exascale“. Ces systèmes sont gérés de manière centralisée à l'aide de solutions logicielles de gestion de jobs et de resources dédiées. Un problème crucial auquel répondent ces logiciels est le problème d'ordonnancement, pour lequel le gestionnaire de resources doit choisir quand, et sur quelles resources exécuter quelle tache calculatoire. Cette thèse fournit des solutions à ce problème. Toutes les plateformes sont différentes. En effet, leur infrastructure, le comportement de leurs utilisateurs et les objectifs de l'organisation hôte varient. Nous soutenons donc que les politiques d'ordonnancement doivent s'adapter au comportement des systèmes. Dans ce manuscrit, nous présentons plusieurs manières d'obtenir cette adaptativité. A travers une approche expérimentale, nous étudions plusieurs compromis entre la complexité de l'approche, le gain potentiel, et les risques pris.

  • Titre traduit

    Learning to control large-scale parallel platforms.


  • Résumé

    Providing the computational infrastucture needed to solve complex problems arising in modern society is a strategic challenge. Organisations usually adress this problem by building extreme-scale parallel and distributed platforms. High Performance Computing (HPC) vendors race for more computing power and storage capacity, leading to sophisticated specific Petascale platforms, soon to be Exascale platforms. These systems are centrally managed using dedicated software solutions called Resource and Job Management Systems (RJMS). A crucial problem adressed by this software layer is the job scheduling problem, where the RJMS chooses when and on which resources computational tasks will be executed. This manuscript provides ways to adress this scheduling problem. No two platforms are identical. Indeed, the infrastructure, user behavior and organization's goals all change from one system to the other. We therefore argue that scheduling policies should be adaptative to the system's behavior. In this manuscript, we provide multiple ways to achieve this adaptativity. Through an experimental approach, we study various tradeoffs between the complexity of the approach, the potential gain, and the risks taken.