Gestion des métadonnées dans les data lakes des smartgrids

par Asma Zgolli

Projet de thèse en Informatique

Sous la direction de Christine Collet.

Thèses en préparation à Grenoble Alpes , dans le cadre de Mathématiques, Sciences et technologies de l'information, Informatique , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de HADAS - Heterogeneous Autonomous Distributed Database Systems (equipe de recherche) depuis le 02-01-2017 .


  • Résumé

    Cette thèse se situe dans le contexte de la spécification d'une architecture générale d'un système de gestion de données pour les smart grids. La variété et les grands volumes de données, la diversité des systèmes et des outils, ainsi que la vélocité des traitements sont les défis les plus importants pour orchestrer un écosystème ou un urbanisme de données smart grid. De plus, diverses applications analytiques et besoins métiers émergent aujourd'hui autour du croisement et de l'exploitation de données à plusieurs niveaux (brutes et raffinées, courantes et historiques, données de mesure compteurs et données sociales, etc.). La gestion des métadonnées permet ainsi d'exploiter des mécanismes de découverte et d'inférence de schémas de données dans les écosystèmes Smartgrid afin de faciliter leur intégration/exploitation. Pour maîtriser la complexité des architectures proposées pour ces écosystèmes, la gestion de métadonnées est centrale si l'on veut éviter également l'apparition de silos entraînant une perte de productivité, la duplication de données et traitements, de mauvaises manipulations. Les recherches visent à : ** Fournir une vue unifiée des métadonnées : description des ensembles de données (tailles, distribution de valeurs, disponibilité, emplacement, schémas, tailles, métriques, etc.), des connaissances, des liens entre ensembles de données, …. ** Collecter et agréger les métadonnées sur les ensembles de données (dans plusieurs formats et provenant de plusieurs sources) et les services de l'écosystème de manière à faciliter l'intégration et l'utilisation ultérieure ** Intégrer un service dédié à la découverte et l'inférence automatiques des schémas : cycles d'évolution des schémas, bases de connaissance pour garder traces des schémas inférés et de leurs correspondances, indexation de données pour la recherche d'ensembles de données plusieurs niveaux dans l'écosystème, etc. ** Fournir des opérations de sélection / récupération intelligente des informations sur les ensembles et services (basée sur le chemin de construction, les usages, les profils, etc.) . Les domaines d'applications concernent l'optimisation, l'auto-adaptation, et la gouvernance des systèmes et d'ensembles de données.

  • Titre traduit

    metadata management in smartgrids' data lakes


  • Résumé

    The context of this thesis is the specification of a general architecture of a data management system for smart grids. The variety and large volumes of data, the diversity of systems and tools, and the velocity of treatments are the most important challenges in orchestrating a smart grid ecosystem. In addition, various analytical applications and business needs are emerging today at the crossing and the exploitation of data at several levels (raw and refined, current and historical, counters' measurement data and social data, etc.). Metadata management thus makes it possible to exploit mechanisms of discovery and inference of data schemes in Smartgrid ecosystems in order to facilitate their integration / exploitation. To master the complexity of the proposed architectures for these ecosystems, the management of metadata is also central to avoid the appearance of silos causing loss of productivity, duplication of data and treatments, bad manipulations. The research aims to: ** Provide a unified view of metadata: description of data sets (sizes, distribution of values, availability, location, diagrams, sizes, metrics, etc.), knowledge, links between data sets, .... ** Collect and aggregate metadata on data sets (in multiple formats and from multiple sources) and ecosystem services to facilitate integration and subsequent use ** Integrate a service dedicated to the automatic discovery and inference of schemas: schema evolution cycles, knowledge bases to keep track of inferred patterns and their matches, data indexing for multiple data sets Levels in the ecosystem, etc. ** Provide intelligent selection / retrieval of package and service information (based on construction path, uses, profiles, etc.). The areas of application concern the optimization, self-adaptation, and governance of systems and data sets.