Thèse soutenue

Simulation générique et contribution à l'optimisation de la robustesse des systèmes de données à large échelle

FR  |  
EN
Auteur / Autrice : Sebastien Gougeaud
Direction : William JalbySoraya Zertal
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/05/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’informatique parallélisme réseaux algorithmes distribués (Saint-Quentin en Yvelines, Yvelines ; 2015-....) - Laboratoire d'Informatique Parallélisme Réseaux Algorithmes Distribués / LI-PaRAD
établissement de préparation de la thèse : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
Jury : Président / Présidente : Joanna Tomasik
Examinateurs / Examinatrices : Jacques-Charles Lafoucrière, Philippe Couvée
Rapporteurs / Rapporteuses : Jacques Jorda, Raymond Namyst

Résumé

FR  |  
EN

La capacité des systèmes de stockage de données ne cesse de croître pour atteindre actuellement l’échelle de l’exaoctet, ce qui a un réel impact sur la robustesse des systèmes de stockage. En effet, plus le nombre de disques contenus dans un système est grand, plus il est probable d’y avoir une défaillance. De même, le temps de la reconstruction d’un disque est proportionnel à sa capacité. La simulation permet le test de nouveaux mécanismes dans des conditions quasi réelles et de prédire leur comportements. Open and Generic data Storage system Simulation tool (OGSSim), l’outil que nous proposons, supporte l’hétérogénéité et la taille importante des systèmes actuels. Sa décomposition modulaire permet d’entreprendre chaque technologie de stockage, schéma de placement ou modèle de calcul comme des briques pouvant être combinées entre elles pour paramétrer au mieux la simulation. La robustesse étant un paramètre critique dans ces systèmes, nous utilisons le declustered RAID pour assurer la distribution de la reconstruction des données d’un disque en cas de défaillance. Nous proposons l’algorithme Symmetric Difference of Source Sets (SD2S) qui utilise le décalage des blocs de données pour la création du schéma de placement. Le pas du décalage est issu du calcul de la proximité des ensembles de provenance logique des blocs d’un disque physique. Pour évaluer l’efficacité de SD2S, nous l’avons comparé à la méthode Crush, exemptée des réplicas. Il en résulte que la création du schéma de placement, aussi bien en mode normal qu’en mode défaillant, est plus rapide avec SD2S, et que le coût en espace mémoire est également réduit (nul en mode normal). En cas de double défaillance, SD2S assure la sauvegarde d’une partie, voire de la totalité, des données