L' ́evolution des architectures d'information sous l'influence des données massives : les lacs de données

par Cedrine Madera

Projet de thèse en Informatique

Sous la direction de Anne Laurent et de André Miralles.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec LIRMM - Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier (laboratoire) et de Département Informatique (equipe de recherche) depuis le 01-11-2016 .


  • Résumé

    Les lacs de données sont de plus en plus utilisés. Loin de remplacer les modèles existants, les lacs de données viennent compléter les architectures de données des grandes organisations. L'accroissement du nombre de données produites, par exemple via l'Internet des objets, couplé à leur diversité (e.g. données de réseaux sociaux) a en effet montré les limites des entrepôts de données et d'autres modèles utilisés. Mais les travaux de recherche sur cette thématique sont actuellement très limités. Nous proposerons donc dans cette thèse tout d'abord une définition et un positionnement vis-à-vis des modèles d'entrepôts de données. Nous nous concentrerons ensuite sur les méthodes de modélisation d'une part pour éviter que les lacs ne se transforment en “marécages” en gérant notamment les méta-données et d'autre part pour préparer au mieux les données pour leur usage final.

  • Titre traduit

    The information architecture evolution under the big data influence : the data lakes


  • Résumé

    Data lakes are increasingly used. Far from replacing existing models, data lakes complement data architectures of large organizations. The increasing volume of data produced, for example via the Internet of things, coupled with their diversity (e.g., social networking) has shown the limitations of data warehouses and other models. But the literature on this subject is currently very limited. We therefore propose in this thesis first a definition and a positioning regarding data warehouse models. Then we focus on the modeling methods (i) to prevent the lakes from becoming "swamps", in particular by managing the metadata and (ii) to best prepare the data for their intended use.