Méthodes d'apprentissage statistique en analyse des signaux issus de calculateurs HPC.

par Théo Saillant

Projet de thèse en Mathématiques appliquées

Sous la direction de Nicolas Vayatis et de Jean-Christophe Weill.

Thèses en préparation à Paris Saclay , dans le cadre de Mathématiques Hadamard , en partenariat avec CMLA - Centre de Mathématiques et de Leurs Applications (laboratoire) , Apprentissage statistique et données massives (equipe de recherche) et de Ecole normale supérieure Paris-Saclay (établissement de préparation de la thèse) depuis le 02-11-2016 .


  • Résumé

    Le CEA/DAM opère des centres de calculs qui sont extrêmement sollicités en interne et par des partenaires scientifiques et industriels. Un enjeu important est la surveillance du bon fonctionnement des calculateurs HPC et de leurs périphériques. Pour cela le CEA/DAM a déployé une plateforme matérielle et une chaîne de traitement logicielle qui enregistrent et traitent de nombreux signaux temporels issus de ces matériels. Ces signaux peuvent éventuellement être corrélés avec les cas utilisateurs et les jeux de données définissant ces cas. L'objectif de cette thèse à cheval entre les mathématiques et l'informatique est l'utilisation et la définition de nouvelles méthodes statistiques et d'apprentissage pour classifier les utilisations de différentes ressources, détecter les comportements aux limites, détecter les dérives d'utilisation et prévoir les phénomènes de résonances en repérant les superpositions de phénomènes périodiques. Ceci permettra d'étendre les fonctionnalités de la plateforme par le nettoyage automatique des signaux en effaçant les erreurs de capteurs et les bruits non significatifs, par l'annotation automatique des plages d'utilisation des ressources et la caractérisation des éléments principaux des signaux.

  • Titre traduit

    Statistical and learning methods for the analysis of signals from HPC computer.


  • Résumé

    The CEA/DAM maintains HPC centers which are used by the CEA itself or scientific and industrial partners. One main issue is the monitoring of such centers. Hardware materials and softwares have been deployed in a platform in order to record time series of the computing system. These signals can be correlated with users or datasets which are related to the definition of different cases. Between mathematics and informatics, the purpose of the thesis is the définition and use of novel methods in order to classify how ressources are used, detect limit behavior and drifts and predict resonance coming from a periodic signals superposition. It will allow to extend the platform to clean and label the signals with respect to some characteristics and use of ressources.