SGBD open-source pour historisation de données et impact des mémoires flash

par Brice Chardin

Thèse de doctorat en Informatique

Sous la direction de Jean-Marc Petit.

Le président du jury était Bruno Defude.

Le jury était composé de Jean-Marc Petit, Bruno Defude, Christine Collet, Luc Bouganim, Olivier Pasteur, Yann Gripay.

Les rapporteurs étaient Christine Collet, Luc Bouganim.


  • Résumé

    L'archivage de données industrielles est un problème complexe : il s'agit de stocker un grand nombre de données sur plusieurs décennies, tout en supportant la charge des insertions temps réel et des requêtes d'extraction et d'analyse. Pour ce type d'application, des produits « de niche » se sont spécialisés pour ce segment du marché : les progiciels d'historisation. Il s'agit de solutions propriétaires avec des coûts de licence de l'ordre de plusieurs dizaines de milliers d'euros, et dont le fonctionnement interne n'est pas dévoilé. Nous avons donc dans un premier temps mis en évidence les spécificités de ces progiciels d'historisation, tant au niveau des fonctionnalités que des performances. Néanmoins, l'archivage de données industrielles peut s'appliquer à des contexte très différents. L'IGCBox par exemple est un mini PC industriel utilisant MySQL pour l'archivage à court terme des données de production des centrales hydrauliques d'EDF. Ce matériel présente quelques spécificités, la principale étant son système de mémoire non volatile basé uniquement sur la technologie flash, pour sa fiabilité importante en milieu industriel et sa faible consommation d'énergie. Les SGBD possèdent pour des raisons historiques de nombreuses optimisations spécifiques aux disques durs, et le manque d'optimisation adaptée aux mémoires flash peut dégrader significativement les performances. Le choix de ce type de mémoire a donc eu des répercussions notables sur les performances pour l'insertion, avec une dégradation importante par rapport aux disques durs. Nous avons donc proposé Chronos, un SGBD dédié à l'historisation de données sur mémoires flash. Pour cela, nous avons en particulier identifié un algorithme d'écriture « quasi-séquentiel » efficace pour accéder à la mémoire, ainsi que des mécanismes de bufferisation et de mise à jour d'index optimisés pour les charges typiques de l'historisation. Les résultats expérimentaux montrent un gain significatif pour les insertions par rapport à des solutions équivalentes, d'un facteur 20 à 54. Chronos est donc une solution compétitive lorsque les insertions correspondent à une proportion importante de la charge soumise au SGBD. En particulier pour les charges typiques des IGCBox, Chronos se distingue en proposant des performances globales améliorées d'un facteur 4 à 18 par rapport aux autres solutions.

  • Titre traduit

    Open-source DBMS for data historization and impact of flash memories


  • Résumé

    Archiving industrial data is a complex issue: a large volume of data has to be stored for several decades while meeting performance requirements for real-time insertions, along with retrieval and analysis queries. For these applications, niche products have specialized in this market segment: data historians. Data historians are proprietary solutions, with license fees of tens of thousands of dollars, and whose internal mechanisms are not documented. Therefore, we first emphasized data historian specificities, with regards to functionalities as much as performance. However, archiving industrial data can occur in very different contexts. IGCBoxes for example are industrial mini PCs using MySQL for short-term data archiving in hydroelectric power stations at EDF. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory, for its reliability in an industrial environment and its low energy consumption. For historical reasons, DBMS include many hard disk drive-oriented optimizations, and the lack of adjustment for flash memories can significantly decrease performance. This type of memory thus had notable consequences on insert performance, with a substantial drop compared with hard disk drives. We therefore designed Chronos, a DBMS for historization data management on flash memories. For that purpose, we especially identified an efficient “quasi-sequential” write pattern on flash memories, along with buffer and index management techniques optimized for historization typical workloads. Experimental results demonstrate improved performance for insertions over different solutions, by a factor of 20 to 54. Chronos is therefore competitive when insertions make up an extensive part of the workload. For instance, Chronos stands out with the typical workload of IGCBoxes, with global performance improved by a factor of 4 to 18 compared with other solutions.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc’INSA. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.