Ordonnancement des sauvegardes/reprises d'applications de calcul haute performance dans les environnements dynamiques

par Blaise Omer Yenke

Thèse de doctorat en Informatique

Sous la direction de Jean-François Méhaut et de Maurice Tchuenté.

Soutenue le 07-01-2011

à Grenoble , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (équipe de recherche) .

Le président du jury était Gabriel Nguetseng.

Le jury était composé de Jean-François Méhaut, Maurice Tchuenté, Claude Tangha, Matthieu Palloix, Maria lucia Carvalho da silva, Pierre eymard Biron.

Les rapporteurs étaient Christophe Cerin, Laurent Philippe, Igor Boguslavsky.


  • Résumé

    Les avancées technologiques ont conduit les grandes organisations telles que les entreprises,les universités et les instituts de recherche à se doter d'intranets constitués de plusieurs serveurs etd'un grand nombre de postes de travail. Cependant dans certaines de ces organisations, les postes detravail sont très peu utilisés pendant la nuit, les week-ends et les périodes de congés, libérant ainsiune grande puissance de calcul disponible et inutilisée.Dans cette thèse, nous étudions l'exploitation de ces temps de jachère afin d'exécuter desapplications de calcul haute performance. A cet effet, nous supposons que les postes acquis sontrebootés et intégrés à des grappes virtuelles constituées dynamiquement. Toutefois, ces temps dejachère ne permettent pas toujours d'exécuter les applications jusqu'à leur terme. Les mécanismes desauvegarde/reprise (checkpointing) sont alors utilisés pour sauvegarder, dans un certain délai, lecontexte d'exécution des applications en vue d'une éventuelle reprise. Il convient de noter que lasauvegarde de tous les processus dans les délais impartis n'est pas toujours possible. Nousproposons un modèle d'ordonnancement des sauvegardes en parallèle, qui tient compte descontraintes temporelles imposées et des contraintes liées aux bandes passantes (réseau et disque),pour maximiser les temps de calcul déjà effectués pour les applications candidates à la sauvegarde.

  • Titre traduit

    Scheduling checkpoint/restart of high performance computing on dynamic environments


  • Résumé

    The technological advances has led major organizations such as enterprises, universities andresearch institutes to acquire intranets consisting of several servers and many workstations.However, in some of these organizations, the resources are rarely used at nights, weekends and onholidays, thus releasing a large computing power available and unused.This thesis discusses the exploitation of the idle period of workstaions in order to run HPCapplications. The workstations retained are restarted and integrated in dynamically formed clusters.However, the idle periods do not always permit the complete carrying out of the computationsallocated to them. The checkpointing mechanisms are then used to save in a certain period, theexecution context of applications for a possible restart. It is worth nothing that checkpointing all theprocesses in the required period is not always possible. We propose a scheduling model ofcheckpointing in parallel, which takes into account the time constraints imposed and the bandwidthconstraints (network and disk) to maximize the computation time already taken for the applicationswhich are to be checkpointed.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Service Interétablissement de Documentation. Documentation électronique.
  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service interétablissements de Documentation. STM. Documentation électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.