Modélisation et développement d'un observatoire générique pour la collecte et l'analyse de données massives

par Annabelle Gillet

Projet de thèse en Informatique

Sous la direction de Nadine Cullot, Éric Leclercq et de Elizabeth Gavignet Perrot.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques , en partenariat avec LIB - Laboratoire Informatique de Bourgogne (laboratoire) depuis le 01-10-2018 .


  • Résumé

    Les données qualifiées de données à grandes dimensions (Big-Data) en raison de leur volume et du nombre de caractéristiques décrivant chaque donnée, sont issues de domaines très variés. Leur valorisation ne peut se faire qu'avec des algorithmes complexes et souvent coûteux à exécuter, qui pris séparément, ne permettent d'éclairer qu'une partie des propriétés des données comme les structures communautaires, les modes de diffusions de messages viraux, les motifs récurrents, etc. L'analyse de ces données à grande dimension peut se faire selon deux objectifs fondamentalement différents dans leur finalité. Il peut s'agir de construire des systèmes logiciels pour effectuer des prédictions, des recommandations ou plus généralement guider des actions ou bien d'analyser ces données dans le but de produire de la connaissance, expliquer ou comprendre des phénomènes et dans ces cas, l'analyse des données doit être intégrée dans une méthodologie itérative et incrémentale de la production de connaissance. Aussi, pour une analyse fine des données à grandes dimensions, il est nécessaire d'avoir recours à plusieurs types d'algorithmes qui reposent sur fondations formelles différentes : théorie des graphes, statistiques, algèbre linéaire et multilinéaire, etc. Une des problématiques est de mettre en adéquation le modèle des données stockées (relationnel, orienté colonne, graphe, document, etc.) avec le modèle de données requis par les algorithmes (séries temporelles, graphes, hypergraphe, graphes multi-couches, matrices d'adjacence, matrices stochastiques, etc.). Cette problématique fait resurgir le problème de l'indépendance logique des données, et concerne l'évolutivité des systèmes logiciels et des systèmes de stockage des données. Actuellement les outils d'analyse de données sont fortement couplés au stockage et le recours aux processus ETL (extract transform load) impacte négativement les temps de développement et de mise à disposition des résultats des analyses en réalisant des transformations de données et de modèles complexes à mettre en œuvre. Notre proposition se situe dans le contexte du data intensive HPC nouveau champ de recherche issu de l'association du calcul haute performance (HPC - high performance computing) avec le stockage et l'analyse des masses de données (Big Data analytics). Elle vise à développer une architecture pour le stockage de données reposant sur une approche multi-paradigmes, c'est-à-dire stockant les données dans un ou plusieurs systèmes (SGBDR, graphe, orienté colonne etc.) en fonction de leur nature et de leur utilisation et offrant des services d'analyses ciblés. Ce travail nécessite une collaboration étroite avec des experts métiers pour la collecte des données et la validation des propositions. Les développements menés dans cette thèse viendront enrichir la plateforme de stockage et d'analyse déjà initiée dans le cadre du travail de thèse de Ian Basaille-Gahitte (soutenue en février 2018) pour développer un « Observatoire de collecte stockage et d'analyse de données massives.

  • Titre traduit

    Modelling and development of a generic observatory to harvest and analyze big data


  • Résumé

    Data qualified as Big Data due to their volume and the number of their caracteristics come from various fields. Their valuation can only be done with complexe algorithms which are expensive to execute. Each algorithm con only inform a part of the properties of data, such as community structures, distribution methods of viral messages, reapeting units, etc. The analysis of these Big Data can be done according to two fundamentally different objectives in their purpose. It can be building software systems to make predictions, recommendations or more generally to guide actions or to analyze these data to produce knowledge, to explain or to understand events and in these cases, the analysis of data must be a part of an iterative and incremental methodology of the production of knowledge. For a detailed analysis of Big Data, it is necessary to use multiple types of algorithms which are based on different formal foundations : graph theory, statistics, linear and multilinear algebra, etc. One of the issues is to put in adequacy the model of stocked data (relational, column oriented, graph, document, etc.) with the model of data needed by the algorithms (temporal serie, graph, hypergraph, multi-layers graph, adjacency matrix, stochastic matrix, etc.) This problem brings up the problem of logical independance of data, and relates to the evolutivity of software systems and data storage systems. Currently the data analytics tools are strongly connected to the storage and the use of ETL process (Extract Transform Load) impacts negativly the times of developement and providing analytics results by doing transformation of data and by complex models to implement. Our proposal falls in the context of data intensive HPC, new research field stemming from association of high performance computing (HPC) with the storage and the analytics of massive data (Big Data analytics). It aims to develop an architecture for the data storage based on a multiparadigms approach, that is storing data in one or many systems (DBMS, graph, column oriented, etc.) based on data's nature and utilization and providing targeted services of analytics. This work needs a close collaboration with domain experts for the data harvesting and the validation of the proposals. The developments conducted in this thesis will enhance the storage and analytics platform already introduced within the work of the thesis of Ian Basaille-Gahitte (defended in february 2018) to develop a "generic observatory to harvest and analyze big data".