Couplage de l'analyse en ligne et de la fouille de données pour l'exploration, l'agrégation et l'explication des données complexes

par Riadh Ben Messaoud

Thèse de doctorat en Informatique

Sous la direction de Nicolas Nicoloyannis et de Omar Boussaid.

Soutenue en 2006

à Lyon 2 .


  • Résumé

    Les entrepôts de données présentent une solution efficace à la gestion des grandes volumétries des données. L'analyse en ligne (OLAP) complète les entrepôts de données en proposant des outils pour la visualisation, la structuration et l'exploration des cubes de données afin d'y découvrir des informations pertinentes. D'un autre côté, la fouille de données emploie des techniques d'apprentissage afin d'induire des modèles de connaissances valides couvrant la description, la classification et l'explication. L'idée de combiner l'analyse en ligne et la fouille de données est une solution prometteuse pour rehausser le processus d'aide à la décision, notamment dans le cas des données complexes. En effet, il s'agit de deux domaines qui peuvent se compléter dans le cadre d'un processus d'analyse unifié. L'objectif de cette thèse est d'avancer de nouvelles approches d'aide à la décision qui reposent sur le couplage de l'analyse en ligne et de la fouille de données. Nous avons mis en place trois principales propositions pour ce problème. La première concerne la visualisation des données éparses. En se basant sur l'analyse des correspondances multiples, nous atténuons l'effet négatif de l'éparsité en réorganisant différemment les cellules d'un cube de données. Notre deuxième proposition fournit une nouvelle agrégation des faits d'un cube de données en se basant sur la classification ascendante hiérarchique. Les nouveaux agrégats obtenus sont sémantiquement plus riches que ceux fournis par l'OLAP classiques. Notre troisième proposition établit une démarche explicative en se basant sur les règles d'association. Nous avons élaboré un nouvel algorithme pour une recherche guidée des règles d'association dans les cubes de données. Nous avons également développé une plateforme logicielle pour concrétiser nos contributions théoriques et proposé un cas d'application à des données complexes afin de valider notre démarche de couplage. Enfin, en se basant sur une algèbre OLAP, nous avons mis en place les premières bases d'un cadre formel général dédié au couplage de l'analyse en ligne et de la fouille de données.


  • Pas de résumé disponible.

  • Titre traduit

    Coupling Online Analytical Processing and Data Mining for Exploration, Aggregation, and Explanation of Complex Data


  • Résumé

    Data warehouses provide efficient solutions for the management of huge amounts of data. Online analytical processing (OLAP) is a key feature in data warehouses which enables users with visual tools to explore data cubes. Therefore, users are capable to extract relevant information for their decision-making. On the other hand, data mining offers automatic learning techniques in order to come out with comprehensive knowledge covering descriptions, clusterings and explanations. The idea of combining online analytical processing and data mining is a promising solution to improve the decision-making process, especially in the case of complex data. In fact, OLAP and data mining could be two complementary fields that interact together within a unique analysis process. The aim of this thesis is to propose new approaches for decision support based on coupling online analytical processing and data mining. In order to do so, we have established three main proposals. The first one concerns the visualization of sparse data. According to the multiple correspondence analysis, we have reduced the negative effect of sparsity by reorganizing the cells of a data cube. Our second proposal provides a new aggregation of facts in a data cube by using agglomerative hierarchical clustering. The obtained aggregates are semantically richer than those provided by traditional multidimensional structures. Our third proposal tries to explain possible relationships within multidimensional data by using association rules. We have designed a new algorithm for a guided-mining of association rules in data cubes. We have also developed a software platform which includes our theoretical contributions. In addition, we provided a case study on complex data in order to validate our approaches. Finally, based on an OLAP algebra, we have designed the first principles toward a general formal framework which models the problem of coupling online analytical processing and data mining.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (237 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 207-223

Où se trouve cette thèse ?

  • Bibliothèque : Université Lumière (Bron). Service commun de la documentation. Bibliothèque universitaire.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.