Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées

par Raja Haddad

Thèse de doctorat en Informatique

Sous la direction de Witold Litwin.

Soutenue le 23-11-2016

à Paris Sciences et Lettres , dans le cadre de Ecole doctorale de Dauphine (Paris) , en partenariat avec Université Paris-Dauphine (Etablissement de préparation de la thèse) , Syrokko (Tremblay en France (France)) (entreprise) et de Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) (laboratoire) .

Le président du jury était Darrell Long.

Le jury était composé de Darrell Long, Philippe Rigaux, Rosanna Verde, Edwin Diday, Daniela Grigori, Filipe Afonso.

Les rapporteurs étaient Philippe Rigaux, Rosanna Verde.


  • Résumé

    Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes.

  • Titre traduit

    Supervised learning of Symbolic Data and adaptation to Big Data


  • Résumé

    This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (216 p.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Dauphine (Paris). Service commun de la documentation.
  • Non disponible pour le PEB
  • Bibliothèque : PARIS-PSL (Paris). Université Paris-Dauphine. Service commun de la documentation : Thèses électroniques Dauphine.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.