Data management in forecasting systems : optimization and maintenance

par Haitang Feng

Thèse de doctorat en Informatique

Sous la direction de Mohand Saïd Hacid, Nicolas Lumineau et de Richard Domps.

Soutenue le 17-10-2012

à Lyon 1 , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon .

Le jury était composé de Jérôme Darmont, Didier Donsez.

Les rapporteurs étaient Anne Doucet, François Pinet.

  • Titre traduit

    Gestion des données dans les systèmes prévisionnels : optimisation et maintenance


  • Résumé

    Les systèmes prévisionnels reposent généralemnt sur des entrepôts de données pour le stockage et sur les outils OLAP pour la visualisation. Des données prédictives agrégées pourraient être modifiées. Par conséquent, la problématique derecherche peut être décrite comme la propagation d'une modification faite sur un agrégat à travers des hiérachies et des dimensions dans un environnement d'entrepôt de données. Il existe un grand nombre de travaux de recherche sur les problèmes de maintenance de vues. Cependant, à notre connaissance, l'impact de la mise à jour interactive d'un agrégat sur les données de base n'a pas été exploré. Cette thèse CIFRE est soutenue par l'ANRT et l'entreprise Anticipeo. L'application Anticipeo est un système prévisionnel de ventes, qui prédit des ventes. Elle était précise avec des résultats de la prédiction, mais le temps de réponse était un problème. Cette thèse comporte deux parties. La première partie est d'identifier la provenance de la latence. Nous avons proposé une méthodologie s'appuyant sur différentes approches et techniques pour améliorer les performances d'une application. Cependant, la propagation d'une modification effectuée sur une agrégat dans un entrpôt de données ne pouvait pas être résolue par ces biais techniques. La deuxième partie du travail consiste en la proposition d'un nouvel algorithme (PAM - Propagation de modification basée sur une agrégat) avec une version étendue (PAM II) pour cette situation. Les algorithmes identifient et mettent àjour les ensembles exactes de données sources et d'aurtes agrégats influencés par la modification d'agrégat. La version optimisées PAM II réalise une meilleure performance par rapport à PAM quand l'utilisation d'une sémantique supplémentaire (par exemple, les dépendances) est possible. Les expériences sur des données réelles d'Anticipeo ont montré que l'algorithme PAM et son extension apportent de meilleures performances dans la propagation des mises à jour.


  • Résumé

    Forecasting systems are usually based on data warehouses for data strorage, and OLAP tools for historical and predictive data visualization. Aggregated predictive data could be modified. Hence, the research issue can be described as the propagation of an aggregate-based modification in hirarchies and dimensions in a data warehouse enironment. Ther exists a great number of research works on related view maintenance problems. However, to our knowledge, the impact of interactive aggregate modifications on raw data was not investigated. This CIFRE thesis is supported by ANRT and the company Anticipeo. The application of Anticipeo is a sales forecasting system that predicts future sales in order to draw appropriate business strategy in advance. By the beginning of the thesis, the customers of Anticipeo were satisfied the precision of the prediction results, but not with the response time. The work of this thesis can be generalized into two parts. The first part consists in au audit on the existing application. We proposed a methodology relying on different technical solutions. It concerns the propagation of an aggregate-based modification in a data warehouse. the second part of our work consists in the proposition of a newx allgorithms (PAM - Propagation of Aggregated-baseed Modification) with an extended version (PAM II) to efficiently propagate in aggregate-based modification. The algorithms identify and update the exact sets of source data anf other aggregated impacted by the aggregated modification. The optimized PAM II version archieves better performance compared to PAM when the use of additional semantics (e.g. dependencies) is possible. The experiments on real data of Anticipeo proved that the PAM algorithm and its extension bring better perfiormance when a backward propagation.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.