Mesurer la qualité des règles d'association : études formelles et expérimentales

par Benoît Vaillant

Thèse de doctorat en Informatique et mathématiques

Sous la direction de Alain Hillion.

Soutenue en 2006

à Télécom Bretagne .


  • Résumé

    L'extraction de connaissances à partir de données vise à extraire des motifs contenus dans des entrepôts de données, dont la taille ne cesse de croître. C'est un processus complexe dans lequel plusieurs experts (métier, analyste, informaticien. . . ) doivent coopérer afin de révéler des motifs qui seront évalués selon différents critères : validités, nouveauté, compréhensibilité, exploitabilité, etc. Or, ces dernier critères sont fortement liés au contexte applicatif et peuvent être formulés de différentes manières. De plus, les progrès techniques et méthodologiques permanents permettent de traiter des volumes de données de plus en plus importants. Par voie de conséquence, le nombre de motifs extraits est également de plus en plus grand, sans pour autant qu'ils soient tous valides - bien au contraire. Force est de constater que la validation de connaissances ne peut maintenant plus se faire sans assistance au décideur, ce dernier ayant bien souvent comme tâche la validation des motifs. Afin de permettre de procéder à cette tâche finale de validation lors du processus, un moyen couramment retenu est l'utilisation de fonctions quantifiant numériquement la pertinence des connaissances. De telles fonctions, dites mesures de qualité, mettent en avant une typologie de connaissance donnée, en induisant un ordre sur celles-ci. De nombreuses mesures ont été proposées, chacune étant liée à des situations précises. Nous adressons la problématique de l'évaluation objective de la qualité d'un type de motif particulier, les règlesd'association, par de telles mesures. Considérant que la sélection des « bonnes » règles repose sur l'utilisation d'une mesure adaptée, nous proposons une étude systématique de ces dernières, basée sur une analyse de propriétés formelles, énoncées selon des termes les plus compréhensibles possibles. De cette étude, on produit une classification d'un nombre important de mesures classiques, que nous confrontons à une classification expérimentale, obtenue en comparant les rangements induits par les mesures pour plusieurs jeux de données. L'étude des propriétés classiques et la définition de nouvelles nous a également permis de mettre en avant certaines particularités des mesures. Nous en déduisons un cadre généralisant la plupart d'entre elles. Nous appliquons également deux méthodes d'Aide Multicritère à la Décision afin de résoudre le problème de la sélection des règles pertinentes. La première approche se fonde sur la prise en compte d'un système de préférences exprimé par un expert de données sur les propriétés précédemment définies, en vue d'orienter le choix de mesure(s) adaptée(s) au contexte applicatif. La seconde approche adresse le problème de la prise en compte des valeurs potentiellement discordantes qu'expriment les mesures sur l'intérêt des règles, et construisons une vue agrégée de leur ordonnancement, en prenant en compte les écarts d'évaluation. Ces méthodes sont appliquées à des situations pratiques. Ce travail nous a aussi conduit au développement d'un outil spécifique performant, Herbs. Nous présentons les traitements qu'il permet d'effectuer, tant en termes de sélection de règles, d'analyse du comportement des mesures et de visualisation.

  • Titre traduit

    Evaluating the interestingness of association rules through the use of interstingness measures : formal and experimental studies


  • Résumé

    Knowledge discovery in databases aims at extracting information contained in data warehouses. It is a complex process, in which several experts (those acquainted with data, analysts, processing specialists, etc. ) must act together in order to reveal patterns, which will be evaluated according to several criteria: validity, novelty, understandability, exploitability, etc. Depending on the application field, these criteria may be related to differing concepts. In addition, constant improvements made in the methodological and technical aspects of data mining allow one to deal with ever-increasing databases. The number of extracted patterns follows the same increasing trend, without them all being valid, however. It is commonly assumed that the validation of the knowledge mined cannot be performed by a decision maker, usually in charge of this step in the process, without some automated help. In order to carry out this final validation task, a typical approach relies on the use of functions which numerically quantify the pertinence of the patterns. Since such functions, called interestingness measures, imply an order on the patterns, they highlight some specific kind of information. Many measures have been proposed, each of them being related to a particular category of situations. We here address the issue of evaluating the objective interestingness of the particular type of patterns that are association rules, through the use of such measures. Considering that the selection of ``good'' rules implies the use of appropriated measures, we propose a systematic study of the latter, based on formal properties expressed in the most straightforward terms. From this study, we obtain a clustering of many commonly-used measures which we confront with an experimental approach obtained by comparing the rankingsinduced by these measures on classical datasets. Analysing these properties enabled us to highlight some particularities of the measures. We deduce a generalised framework that includes a large majority of them. We also apply two Multicriteria Decision Aiding methods in order to solve the issue of retaining pertinent rules. The first approach takes into account a modelling of the preferences expressed by an expert in the field being mined about the previously defined properties. From this modelling, we establish which measures are the most adapted to the specific context. The second approach addresses the problem of taking into account the potentially differing values that the measures take, and builds an aggregated view of the ordering of the rules by taking into account the differences in evaluations. These methods are applied to practical situations. This work also led us to develop powerful dedicated software, Herbs. We present the processing it allows for rule selection purposes, as well as for the analysis of the behaviour of measures and visualisation aspects. Without any claim to exhaustiveness in our study, the methodology We propose can be extended to new measures or properties, and is applicable to other data mining contexts.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xii-154 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 145-153

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Centre de recherche en informatique de Lens. Bibliothèque.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : THE 06 VAI
  • Bibliothèque : Université de Bretagne-Sud (Lorient). Bibliothèque universitaire.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2006TELB0026
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.