Vers une description et une modélisation des entrées des modèles de coût mathématiques pour l'optimisation des entrepôts de données

par Cheik Salmi

Thèse de doctorat en Informatique et applications

Sous la direction de Ladjel Bellatreche et de Jalil Boukhobza.

Soutenue le 29-03-2017

à Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique , dans le cadre de École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018) , en partenariat avec Université de Bretagne occidentale (laboratoire) et de Laboratoire d'Informatique et d'Automatique pour les Systèmes / LIAS (laboratoire) .

Le jury était composé de Djamal Benslimane, Mohamed Mezghiche, Béatrice Markhoff.

Les rapporteurs étaient Claude Godard, Kokou Yétongnon.


  • Résumé

    Les entrepôts de données (ED) sont devenus une technologie mature. L'accentuation des demandes d'analyse est motivée par l'évolution technologique, Les nouveaux paradigmes de programmation et L'ingénierie Dirigée par les Modèles (!DM). Avant d'utiliser ces progrès technologiques, l'entrepôt de données doit être construit et préparé pour sa bonne exploitation.La phase de construction a vu l'utilisation massive des efforts de description et de méta-modélisation afin de faciliter la définition des correspondances entre les schémas locaux des sources de données et le schéma de l'ED et de réduire l'hétérogénéité entre les sources. La phase d'exploitation et sa tâche physique, en particulier n'ont pas eu la même utilisation des solutions de description et de méta-modélisation, bien qu'elle est considérée comme un tunnel de toutes les phases de cycle de vie de conception d,un ED. Durant cette phase; des modèles de coût mathématiques sont utilisés pour quantifier la qualité des solutions proposées. Le développement de ces derniers nécessite des efforts de collection et d'analyse des paramètres pertinents.Pour bien simuler le fonctionnement d'un ED, toutes les dimensions d'un SGBD doivent être intégrées. Dans cette thèse, nous proposons de décrire en détail ces dimensions avec des mécanismes de méta-modélisation. Vu la similarité et la hiérarchisation gui existent entre les supports de stockage, nous avons développé une ontologie de domaine dédiée aux supports de stockage.Elle permet d'expliciter leurs propriétés. Les similarités entre ces supports nous a motivé à hybrider le cache mémoire avec les mémoires flashs pour augmenter sa capacité afin de stocker un nombre important de résultats intermédiaires partagés par plusieurs requêtes décisionnelles. La réutilisation de ces résultats permet d'augmenter la performance du SGBD. Nos contributions sont validées à l'aide des expérimentations en utilisant nos modèles de coût théoriques et le SGBD Oracle.

  • Titre traduit

    Toward a Description and Modeling Inputs of Mathematical Cost Models to Data Warehousing Optimization


  • Résumé

    Data warehouses (DW) have become a mature technology. The emphasis of the analysis requests is driven by technological change, the new programmig paradigms and ModelDriven Engineering (MDI). Before using these technological advances, the DW must be buil tand prepared for its proper operation. The construction phase bas seen massive description efforts and meta modeling to facilitate the definition of correspondence between local data sources schemas and DW schema and to reduce heterogeneity between sources. Despite its importance in all stages of the design life cycle of an DW, the operational phase and in particular its physical task, did not have the same interest in term of description and meta modeling. During this phase, mathematical cost models are used to quantify the quality of the solutions proposed. The development of these models requires collection efforts and analysis of relevant parameters. To simulate the operation of a DW, all the dimensions of a DBMS must be integrated. In this thesis, we propose to describe in detail these dimensions with meta-modeling mechanisms. Given the singularity and hierarchy between storage media, we have developed an ontology dedicated to storage media, which makes explicit their properties. The similarities between these supports motivated us to develop a hybrid cache based on flash memory. This increases the cache ability to store a large number of intermediate results shared by multiple decision-support queries. The reuse of these results will increase the overall performance of fue DBMS. Our contributions are validated with experiments using our theoretical cost models and the Oracle DBMS.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole nationale supérieure de mécanique et d'aérotechnique. Centre de ressources documentaires.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.