Appréhender l'hétérogénéité à (très) grande échelle

par Raphaël Bleuse

Thèse de doctorat en Informatique

Sous la direction de Denis Trystram et de Grégory Mounié.

Soutenue le 11-10-2017

à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'informatique de Grenoble (laboratoire) et de Data Aware Large Scale Computing (équipe de recherche) .

Le président du jury était Yves Robert.

Le jury était composé de Lionel Eyraud-Dubois, Alix Munier-Kordon.

Les rapporteurs étaient Nectarios Koziris, Vitus J. Leung.


  • Résumé

    Le besoin de simuler des phénomènes toujours plus complexes accroît les besoinsen puissance de calcul, tout en consommant et produisant de plus en plus dedonnées.Pour répondre à cette demande, la taille et l'hétérogénéité des plateformes decalcul haute performance augmentent.L'hétérogénéité permet en effet de découper les problèmes en sous-problèmes,pour lesquels du matériel ou des algorithmes ad hoc sont plus efficients.Cette hétérogénéité se manifeste dans l'architecture des plateformes et dans lavariété des applications exécutées.Aussi, les performances sont de plus en plus sensibles au contexte d'exécution.L'objet de cette thèse est de considérer, qualitativement et à faible coût,l'impact du contexte d'exécution dans les politiques d'allocation etd'ordonnancement.Cette étude est menée à deux niveaux: au sein d'applications uniques, et àl'échelle des plateformes au niveau inter-applications.Nous étudions en premier lieu la minimisation du temps de complétion pour destâches séquentielles sur des plateformes hybrides intégrant des CPU et des GPU.Nous proposons de tenir compte du contexte d'exécution grâce à un mécanismed'affinité améliorant le comportement local des politiques d'ordonnancement.Ce mécanisme a été implémenté dans un run-time parallèle.Une campagne d'expérience montre qu'il permet de diminuer les transferts dedonnées tout en conservant un faible temps de complétion.Puis, afin de prendre implicitement en compte le parallélisme sur les CPU, nousenrichissons le modèle en considérant les tâches comme moldables sur CPU.Nous proposons un algorithme basé sur la programmation linéaire en nombresentiers.Cet algorithme efficace a un rapport de compétitivité de 3/2+ε.Dans un second temps, nous proposons un nouveau cadre de modélisation danslequel les contraintes sont des outils de premier ordre.Plutôt que d'étendre les modèles existants en considérant toutes lesinteractions possibles, nous réduisons l'espace des ordonnancements réalisablesvia l'ajout de contraintes.Nous proposons des contraintes raisonnables pour modéliser l'étalement desapplications ainsi que les flux d'E/S.Nous proposons ensuite une étude de cas exhaustive dans le cadre de laminimisation du temps de complétion pour des topologies unidimensionnelles,sous les contraintes de convexité et de localité.

  • Titre traduit

    Apprehending heterogeneity at (very) large scale


  • Résumé

    The demand for computation power is steadily increasing, driven by the need tosimulate more and more complex phenomena with an increasing amount ofconsumed/produced data.To meet this demand, the High Performance Computing platforms grow in both sizeand heterogeneity.Indeed, heterogeneity allows splitting problems for a more efficient resolutionof sub-problems with ad hoc hardware or algorithms.This heterogeneity arises in the platforms' architecture and in the variety ofprocessed applications.Consequently, the performances become more sensitive to the execution context.We study in this thesis how to qualitatively bring—at a reasonablecost—context-awareness/obliviousness into allocation and scheduling policies.This study is conducted from two standpoints: within single applications, andat the whole platform scale from an inter-applications perspective.We first study the minimization of the makespan of sequential tasks onplatforms with a mixed architecture composed of multiple CPUs and GPUs.We integrate context-awareness into schedulers with an affinity mechanism thatimproves local behavior.This mechanism has been implemented in a parallel run-time, and experimentsshow that it is able to reduce the memory transfers while maintaining a lowmakespan.We then extend the model to implicitly consider parallelism on the CPUs withthe moldable-task model.We propose an efficient algorithm formulated as an integer linear program witha constant performance guarantee of 3/2+ε.Second, we devise a new modeling framework where constraints are a first-classtool.Rather than extending existing models to consider all possible interactions, wereduce the set of feasible schedules by further constraining existing models.We propose a set of reasonable constraints to model application spreading andI/O traffic.We then instantiate this framework for unidimensional topologies, and propose acomprehensive case study of the makespan minimization under convex and localconstraints.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.