Stockage massif pour le HPC par utilisation de storage BLOBs

par Eloïse Billa

Projet de thèse en Informatique

Sous la direction de Soraya Zertal.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LI-PaRAD - Laboratoire d'Informatique - Parallélisme Réseaux Algorithmes Distribués (laboratoire) et de université de Versailles-Saint-Quentin-en-Yvelines (établissement de préparation de la thèse) depuis le 28-02-2017 .


  • Résumé

    Les nouvelles technologies misent en œuvre dans le calcul haute-performance laissent présager de profondes évolutions dans les années à venir (calculateurs de classe exaflopique). Du point de vue du stockage de données, la problématique se pose également car les futurs moyens de stockage de données devront faire face à un flux de données important, tant du point de vue des données elles-mêmes que de la gestion des métadonnées des fichiers. Cela nous conduit à remettre en cause les mécanismes de système de fichiers parallèles et d'HSM classiquement mis en œuvre dans les « data centers » et les centres de calcul. Dans cette optique, il convient de déployer de nouveaux paradigmes introduisant des objets faiblement typés (ou « storage blobs »), indépendants les uns des autres, accédés de manière associative et existant en très grands nombres. Cette problématique n'est pas propre au HPC, les technologies de type « storage cloud » recoupent des problématiques similaires. Cette thèse se propose de définir et de mettre en œuvre le modèle de « storage blobs » dans le but de construire des solutions de stockage massives à même de supporter les flux produits par des calculateurs exaflopiques. Les capacités envisagés de ces systèmes seront, à l'horizon 2020, de l'ordre de l'exaoctet voire du yottaoctet , tout en conservant la scalabitié de la solution en termes d'accès et de consultation. Cette thèse définira la structure des « storages blobs », les méthodes pour les accéder et proposera une solution prototype destinée à être testée sur les centres de calcul du CEA/DAM/DIF/DSSI.

  • Titre traduit

    Mass Storage for the HPC using Storage BLOBs


  • Résumé

    New technologies in the HPC area show deep changes for the future (computing at the exaflops level) which generate many issues especially for storage systems. These ones will have to face a huge data rate from both native data and associated metadata. This makes the 'classical' mechanisms as parallel file systems used in computing and data centers completely obsolete. It becomes more suitable for such systems to use new paradigms using loosly typed objects, called BLOBs. These objects are used independently from each others, accessed in an associative way, already used in the clouds. This thesis aims to define and implement a new model of storage BLOBs to build a solution for mass storage systems dedicated to the exaflops computing. At the horizon of 2020, these systems can reach the yottaoctet limit, maintaining the scalability in terms of access and edition. This thesis has to define the structure of the 'storage blobs', their access methods and proposes a prototype to be tested using the computing ressources of CEA/DAM/DIF/DSSI