L' ́evolution des architectures d'information sous l'influence des données massives : les lacs de données

par Cedrine Madera

Thèse de doctorat en Informatique

Sous la direction de Anne Laurent, André Miralles et de Thérèse Libourel.


  • Résumé

    La valorisation du patrimoine des données des organisation est mise au cœur de leur transformation digitale. Sous l'influence des données massives le système d'information doit s'adapter et évoluer. Cette évolution passe par une transformation des systèmes décisionnels mais aussi par l'apparition d'un nouveau composant du système d'information : Les lacs de données. Nous étudions cette évolution des systèmes décisionnels, les éléments clés qui l'influence mais aussi les limites qui apparaissent , du point de vue de l'architecture, sous l'influence des données massives. Nous proposons une évolution des systèmes d'information avec un nouveau composant qu'est le lac de données. Nous l'étudions du point de vue de l'architecture et cherchons les facteurs qui peuvent influencer sa conception , comme la gravité des données. Enfin, nous amorçons une piste de conceptualisation des lacs de données en explorant l'approche ligne de produit. Nouvelle version Sous l'influence des données massives nous étudions l'impact que cela entraîne notamment avec l'apparition de nouvelles technologies comme Apache Hadoop ainsi que les limite actuelles des système décisionnel.Les limites rencontrées par les systèmes décisionnels actuels impose une évolution au système d 'information qui doit s'adapter et qui donne naissance à un nouveau composant : le lac de données. Dans un deuxième temps nous étudions en détail ce nouveau composant, formalisons notre définition, donnons notre point de vue sur son positionnement dans le système d information ainsi que vis à vis des systèmes décisionnels. Par ailleurs, nous mettons en évidence un facteur influençant l'architecture des lacs de données : la gravité des données, en dressant une analogie avec la loi de la gravité et en nous concentrant sur les facteurs qui peuvent influencer la relation donnée-traitement. Nous mettons en évidence , au travers d'un cas d'usage , que la prise en compte de la gravité des données peut influencer la conception d'un lac de données. Nous terminons ces travaux par une adaptation de l'approche ligne de produit logiciel pour amorcer une méthode de formalisations et modélisation des lacs de données. Cette méthode nous permet : - d'établir une liste de composants minimum à mettre en place pour faire fonctionner un lac de données sans que ce dernier soit transformé en marécage, - d'évaluer la maturité d'un lac de donnée existant, - de diagnostiquer rapidement les composants manquants d'un lac de données existant qui serait devenu un marécage, - de conceptualiser la création des lacs de données en étant "logiciel agnostique”.

  • Titre traduit

    The information architecture evolution under the big data influence : the data lakes


  • Résumé

    Data is on the heart of the digital transformation.The consequence is an acceleration of the information system evolution , which must adapt. The Big data phenomenon plays the role of catalyst of this evolution. Under its influence appears a new component of the information system: the data lake. Far from replacing the decision support systems that make up the information system, data lakes come complete information systems's architecture. First, we focus on the factors that influence the evolution of information systems such as new software and middleware, new infrastructure technologies, but also the decision support system usage itself. Under the big data influence we study the impact that this entails especially with the appearance of new technologies such as Apache Hadoop as well as the current limits of the decision support system . The limits encountered by the current decision support system force a change to the information system which must adapt and that gives birth to a new component: the data lake. In a second time we study in detail this new component, formalize our definition, give our point of view on its positioning in the information system as well as with regard to the decision support system . In addition, we highlight a factor influencing the architecture of data lakes: data gravity , doing an analogy with the law of gravity and focusing on the factors that may influence the data-processing relationship. We highlight, through a use case, that taking account of the data gravity can influence the design of a data lake. We complete this work by adapting the software product line approach to boot a method of formalizations and modeling of data lakes. This method allows us: - to establish a minimum list of components to be put in place to operate a data lake without transforming it into a data swamp, - to evaluate the maturity of an existing data lake, - to quickly diagnose the missing components of an existing data lake that would have become a data swamp - to conceptualize the creation of data lakes by being "software agnostic “.