Traitement à grand échelle des données symboliques

par Omar Merroun

Thèse de doctorat en Informatique. Data mining

Sous la direction de Philippe Rigaux et de Edwin Diday.

Soutenue en 2011

à l'Université Paris-Dauphine .


  • Résumé

    Les méthodes de l’Analyse de Données (AD) classiques ont été généralisées dans l’Analyse de Données Symboliques (ADS) en prenant en charge les données complexes (intervalles, ensembles, histogrammes, etc. ). Ces méthodes expriment des operations de haut niveau et sont très complexes. Le modèle de l’ADS, qui est implanté dans le logiciel SODAS2, ne supporte pas le traitement de volumes importants de données symboliques. Conformément à la démarche classique en modélisation et traitement de masses de données, nous proposons un nouveau modèle de données pour représenter les données symboliques et les manipuler avec des opérateurs algébriques minimaux et clos par composition. Nous donnons aussi des exemples de requêtes pour montrer l’expressivité de ce modèle. Nous avons implanté ce modèle algébrique, nommé LS-SODAS, et définit un langage, nommé XSDQL, pour formuler des requêtes afin de manipuler les données symboliques. Nous réalisons deux études de cas qui illustrent d’une part l’expressivité de ce langage et la capacité à traiter des volumes de données importants

  • Titre traduit

    Large scale symbolic data processing


  • Résumé

    Symbolic Data Analysis (SDA) proposes a generalization of classical Data Analysis (AD) methods using complex data (intervals, sets, histograms). These methods define high level and complex operators for symbolic data manipulation. Furthermore, recent implementations of the SDA model are not able to process large data volumes. According to the classical design of massive data computation, we define a new data model to represent and process symbolic data using algebraic operators that are minimal and closed by composition. We give some query samples to emphasize the expressiveness of our model. We implement this algebraic model, called LS-SODAS, and we define the language XSDQL to express queries for symbolic data manipulation. Two cases of study are provided in order to show the potential of XSDQL langage expressiveness and the data processing scalability

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (121 p.)
  • Notes : Thèse confidentielle jusqu’au 08/07/2021
  • Annexes : bibliogr. 69 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Dauphine (Paris). Service commun de la documentation.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.