Formal models for safety analysis of a Data Center system

par Mokhtar Walid Bennaceur

Thèse de doctorat en Informatique

Sous la direction de Leïla Kloul.

Soutenue le 21-11-2019

à l'Université Paris-Saclay (ComUE) , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Données et algorithmes pour une ville intelligente et durable (DAVID) (laboratoire) , Université de Versailles-Saint-Quentin-en-Yvelines (établissement opérateur d'inscription) et de Données et algorithmes pour une ville intelligente et durable - DAVID / DAVID (laboratoire) .

Le président du jury était Amar Ramdane-Cherif.

Le jury était composé de Leïla Kloul, Amar Ramdane-Cherif, Jean-Yves Choley, Karama Kanoun, Frank Ortmeier.

Les rapporteurs étaient Jean-Yves Choley, Karama Kanoun.

  • Titre traduit

    Modèles formels pour l’analyse de la sûreté de fonctionnement d’un Data center


  • Résumé

    Un Data Center (DC) est un bâtiment dont le but est d'héberger des équipements informatiques pour fournir différents services Internet. Pour assurer un fonctionnement constant de ces équipements, le système électrique fournit de l'énergie, et pour les maintenir à une température constante, un système de refroidissement est nécessaire. Chacun de ces besoins doit être assuré en permanence, car la conséquence de la panne de l'un d'eux entraîne une indisponibilité de l'ensemble du système du DC, ce qui peut être fatal pour une entreprise.A notre connaissance, il n'existe pas de travaux d'étude sur l'analyse de sûreté de fonctionnement et de performance, prenant en compte l'ensemble du système du DC avec les différentes interactions entre ses sous-systèmes. Les études d'analyse existantes sont partielles et se concentrent sur un seul sous-système, parfois deux. L'objectif principal de cette thèse est de contribuer à l'analyse de sûreté de fonctionnement d'un Data Center. Pour cela, nous étudions, dans un premier temps, chaque sous-système (électrique, thermique et réseau) séparément, afin d'en définir ses caractéristiques. Chaque sous-système du DC est un système de production qui transforment les alimentations d'entrée (énergie pour le système électrique, flux d'air pour le système thermique, et paquets pour le réseau) en sorties, qui peuvent être des services Internet. Actuellement, les méthodes d'analyse de sûreté de fonctionnement existantes pour ce type de systèmes sont inadéquates, car l'analyse de sûreté doit tenir compte non seulement de l'état interne de chaque composant du système, mais également des différents flux de production qui circulent entre ces composants. Dans cette thèse, nous considérons une nouvelle technique de modélisation appelée Arbres de Production (AP) qui permet de modéliser la relation entre les composants d'un système avec une attention particulière aux flux circulants entre ces composants.La technique de modélisation en AP permet de traiter un seul type de flux à la fois. Son application sur le sous-système électrique est donc appropriée, car il n'y a qu'un seul type de flux (le courant électrique). Toutefois, lorsqu'il existe des dépendances entre les sous-systèmes, comme c'est le cas pour les sous-systèmes thermiques et les sous-systèmes de réseaux, différents types de flux doivent être pris en compte, ce qui rend l'application de la technique des APs inadéquate. Par conséquent, nous étendons cette technique pour traiter les dépendances entre les différents types de flux qui circulent dans le DC. En conséquence, il est facile d'évaluer les différents indicateurs de sûreté de fonctionnement du système global du DC, en tenant compte des interactions entre ses sous-systèmes. De plus, nous faisons quelques statistiques de performance. Nous validons les résultats de notre approche en les comparant à ceux obtenus par un outil de simulation que nous avons implémenté et qui est basé sur la théorie des files d'attente.Jusqu'à présent, les modèles d'arbres de production n'ont pas d'outils de résolution. C'est pourquoi nous proposons une méthode de résolution basée sur la Distribution de Probabilité de Capacité (Probability Distribution of Capacity - PDC) des flux circulants dans le système du DC. Nous implémentons également le modèle d'AP en utilisant le langage de modélisation AltaRica 3.0, et nous utilisons son simulateur stochastique dédié pour estimer les indices de fiabilité du système. Ceci est très important pour comparer et valider les résultats obtenus avec notre méthode d'évaluation. En parallèle, nous développons un outil qui implémente l'algorithme de résolution des APs avec une interface graphique basée qui permet de créer, éditer et analyser des modèles d'APs. L'outil permet également d'afficher les résultats et génère un code AltaRica, qui peut être analysé ultérieurement à l'aide du simulateur stochastique de l'outil AltaRica 3.0.


  • Résumé

    A Data Center (DC) is a building whose purpose is to host IT devices to provide different internet services. To ensure constant operation of these devices, energy is provided by the electrical system, and to keep them at a constant temperature, a cooling system is necessary. Each of these needs must be ensured continuously, because the consequence of breakdown of one of them leads to an unavailability of the whole DC system, and this can be fatal for a company.In our Knowledge, there exists no safety and performance studies’, taking into account the whole DC system with the different interactions between its sub-systems. The existing analysis studies are partial and focus only on one sub-system, sometimes two. The main objective of this thesis is to contribute to the safety analysis of a DC system. To achieve this purpose, we study, first, each DC sub-system (electrical, thermal and network) separately, in order to define their characteristics. Each DC sub-system is a production system and consists of combinations of components that transform entrance supplies (energy for the electrical system, air flow for the thermal one, and packets for the network one) into exits, which can be internet services. Currently the existing safety analysis methods for these kinds of systems are inadequate, because the safety analysis must take into account not only the internal state of each component, but also the different production flows circulating between components. In this thesis, we consider a new modeling methodology called Production Trees (PT) which allows modeling the relationship between the components of a system with a particular attention to the flows circulating between these components.The PT modeling technique allows dealing with one kind of flow at once. Thus its application on the electrical sub-system is suitable, because there is only one kind of flows (the electric current). However, when there are dependencies between sub-systems, as in thermal and network sub-systems, different kinds of flows need to be taken into account, making the application of the PT modeling technique inadequate. Therefore, we extend this technique to deal with dependencies between the different kinds of flows in the DC. Accordingly it is easy to assess the different safety indicators of the global DC system, taking into account the interactions between its sub-systems. Moreover we make some performance statistics. We validate the results of our approach by comparing them to those obtained by a simulation tool that we have implemented based on Queuing Network theory.So far, Production Trees models are not tool supported. Therefore we propose a solution method based on the Probability Distribution of Capacity (PDC) of flows circulating in the DC system. We implement also the PT model using the AltaRica 3.0 modeling language, and use its dedicated stochastic simulator to estimate the reliability indices of the system. This is very important to compare and validate the obtained results with our assessment method. In parallel, we develop a tool which implements the PT solution algorithm with an interactive graphical interface, which allows creating, editing and analyzing PT models. The tool allows also displaying the results, and generates an AltaRica code, which can be subsequently analyzed using the stochastic simulator of AltaRica 3.0 tool.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Versailles Saint-Quentin-en-Yvelines. Service Commun de la Documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.