Thèse soutenue

La théorie des catégories appliquée à la modélisation des (grandes) données et aux transformations de modèles

FR  |  
EN
Auteur / Autrice : Heng Zhao
Direction : Michel Hassenforder
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/07/2019
Etablissement(s) : Mulhouse
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique, Mathématiques, Automatique et Signal (Mulhouse) - Institut de Recherche en Informatique Mathématiques Automatique Signal - IRIMAS - UR 7499 / IRIMAS

Résumé

FR  |  
EN

Le Big data est un ensemble de données qui ne peuvent pas être capturées, gérées et traitées avec des outils logiciels habituels sur une période donnée. Il nécessite un nouveau modèle de traitement pour avoir une capacité plus efficace de traiter des données à grande échelle.Notre recherche présente les capacités offertes par la théorie des catégories avec un langage de programmation fonctionnel (pour mettre en œuvre les concepts et faciliter l'expérimentation) pour résoudre ces limites. En particulier, nous utilisons les foncteurs pour modifier les structures de données (par exemple, diverses représentations d’ensemble) et appliquer des transformations pour modifier les programmes applicables à une structure de données particulière vers un autre programme pour une autre structure de données. Après une étude des différentes bases de données, nous proposons de réduire le point de vue du stockage et la consultation des données sous forme de : tables, tables associatives, ou de graphes. Nous proposons les algorithmes associés pour charger, consulter et extraire des données selon un critère simple ainsi que des procédures alternatives issues des transformations naturelles. Nous validons nos propositions sur un jeu de données du net où nous mesurons les différentes performances. La comparaison avec des bases de données standards : Sqlite, Mongodb, Neo4j, MonetDB et Cassandra montre que notre approche est plus performante que les bases standards. En conclusion, nous ouvrons de nouvelles pistes de recherche.