Algorithmique des treillis de concepts : application à la fouille de données

par Huaiguo Fu

Thèse de doctorat en Informatique

Sous la direction de Engelbert Mephu-Nguifo.

Soutenue en 2005

à l'Artois .


  • Résumé

    Dans cette thèse, nous nous intéressons à la structure du treillis de concepts et à ses applications à la fouille de données. Nous avons entrepris dans cette thèse un travail de comparaison de plusieurs algorithmes de génération des concepts formels sur les données d'UCI. Au cours de cette étude, nous avons analysé le phénomène de la dualité objets/attributs sur les performances des algorithmes. Nous proposons un nouvel algorithme de génération de concepts formels, nommé ScalingNextClosure. ScalingNextClosure décompose l'espace de recherche en partitions, et génère de manière indépendante les concepts pour chaque partition. Cette technique de décomposition et d'indépendance des partitions lui permet de gérer efficacement la mémoire centrale et les entrées/sorties pour être capable de traiter efficacement des contextes de données volumineux. Une comparaison expérimentale montre l'efficacité de cet algorithme par rapport à NextClosure. L'indépendance des partitions est un atout pour la mise en oeuvre de ScalingNextClosure dans un environnement parallèle et distribué. En fouille de données, la problématique d'extraction des itemsets fermés fréquents pour la recherche de règles d'association, se prête bien à une mise en oeuvre de ScalingNextClosure. Nous avons donc étendu ScalingNextClosure pour traiter ce problème. Le nouvel algorithme, nommé PFC, utilise la mesure du support pour élaguer l'espace de recherche dans une partition. Une comparaison expérimentale avec une des méthodes les plus efficaces actuellement, a été réalisée sur une architecture séquentielle, et donne des résultats encourageants.


  • Résumé

    Our main concern in this thesis is concept (or galois) lattices and its application to data mining. We achieve a comparison of different concept lattices algorithms on benchmarks taken from UCI. During this comparison, we analyse the duality phenomenon between objects and attributes on each algorithm performance. This analysis allows to show that the running time of an algorithm may considerably vary when using the formal context or the transposed context. Using the Divide-and-Conquer paradigm, we design a new concept lattice algorithm, ScalingNextClosure, which decomposes the search space in many partitions and builds formal concepts for each partition independently. By reducing the search space, ScalingNextClosure can deal efficiently with few memory space and thus treat huge formal context, but only if the whole context can be loaded in the memory. An experimental comparison between NextClosure and ScalingNextClosure shows the efficiency of such decomposition approach. In any huge dataset, ScalingNextClosure runs faster than NextClosure on a sequential machine, with an average win factor equal to 10. Another advantage of ScalingNextClosure is that it can be easily implemented on a distributed or parallel architecture. Mining frequent closed itemsets (FCI) is a subproblem of mining association rules. We adapt ScalingNextClosure to mine frequent closed itemsets, and design a new algorithm, called PFC. PFC uses the support measure to prune the search space within one partition. An experimental comparison conducted on a sequential architecture, between PFC with one of the efficient FCI system, is discussed.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. XI-171 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [159]-168. index

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Artois (Lens, Pas-de-Calais). Bibliothèque de Sciences.
  • Disponible pour le PEB
  • Cote : 05ARTO0401
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.