Extraction optimisée de règles d'association positives et négatives intéressantes

par Pierre-Antoine Papon

Thèse de doctorat en Informatique

Sous la direction de Alain Quilliot.

Soutenue le 09-06-2016

à Clermont-Ferrand 2 , dans le cadre de École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) , en partenariat avec Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (laboratoire) et de (LIMOS) Laboratoire d'Informatique- de Modélisation et d'optimisation des Systèmes (laboratoire) .

Le président du jury était Ali Khenchaf.

Le jury était composé de Alain Quilliot, Sylvie Guillaume.

Les rapporteurs étaient Ali Khenchaf, Israël César Lerman.


  • Résumé

    L’objectif de la fouille de données consiste à extraire des connaissances à partir de grandes masses de données. Les connaissances extraites peuvent prendre différentes formes. Dans ce travail, nous allons chercher à extraire des connaissances uniquement sous la forme de règles d’association positives et de règles d’association négatives. Une règle d’association négative est une règle dans laquelle la présence ainsi que l’absence d’une variable peuvent être utilisées. En considérant l’absence des variables dans l’étude, nous allons élargir la sémantique des connaissances et extraire des informations non détectables par les méthodes d’extraction de règles d’association positives. Cela va par exemple permettre aux médecins de trouver des caractéristiques qui empêchent une maladie de se déclarer, en plus de chercher des caractéristiques déclenchant une maladie. Cependant, l’ajout de la négation va entraîner différents défis. En effet, comme l’absence d’une variable est en général plus importante que la présence de ces mêmes variables, les coûts de calculs vont augmenter exponentiellement et le risque d’extraire un nombre prohibitif de règles, qui sont pour la plupart redondantes et inintéressantes, va également augmenter. Afin de remédier à ces problèmes, notre proposition, dérivée de l’algorithme de référence A priori, ne va pas se baser sur les motifs fréquents comme le font les autres méthodes. Nous définissons donc un nouveau type de motifs : les motifs raisonnablement fréquents qui vont permettre d’améliorer la qualité des règles. Nous nous appuyons également sur la mesure M G pour connaître les types de règles à extraire mais également pour supprimer des règles inintéressantes. Nous utilisons également des méta-règles nous permettant d’inférer l’intérêt d’une règle négative à partir d’une règle positive. Par ailleurs, notre algorithme va extraire un nouveau type de règles négatives qui nous semble intéressant : les règles dont la prémisse et la conclusion sont des conjonctions de motifs négatifs. Notre étude se termine par une comparaison quantitative et qualitative aux autres algorithmes d’extraction de règles d’association positives et négatives sur différentes bases de données de la littérature. Notre logiciel ARA (Association Rules Analyzer ) facilite l’analyse qualitative des algorithmes en permettant de comparer intuitivement les algorithmes et d’appliquer en post-traitement différentes mesures de qualité. Finalement, notre proposition améliore l’extraction au niveau du nombre et de la qualité des règles extraites mais également au niveau du parcours de recherche des règles.

  • Titre traduit

    Efficient mining of interesting positive and negative association rules


  • Résumé

    The purpose of data mining is to extract knowledge from large amount of data. The extracted knowledge can take different forms. In this work, we will seek to extract knowledge only in the form of positive association rules and negative association rules. A negative association rule is a rule in which the presence and the absence of a variable can be used. When considering the absence of variables in the study, we will expand the semantics of knowledge and extract undetectable information by the positive association rules mining methods. This will, for example allow doctors to find characteristics that prevent disease instead of searching characteristics that cause a disease. Nevertheless, adding the negation will cause various challenges. Indeed, as the absence of a variable is usually more important than the presence of these same variables, the computational costs will increase exponentially and the risk to extract a prohibitive number of rules, which are mostly redundant and uninteresting, will also increase. In order to address these problems, our proposal, based on the famous Apriori algorithm, does not rely on frequent itemsets as other methods do. We define a new type of itemsets : the reasonably frequent itemsets which will improve the quality of the rules. We also rely on the M G measure to know which forms of rules should be mined but also to remove uninteresting rules. We also use meta-rules to allow us to infer the interest of a negative rule from a positive one. Moreover, our algorithm will extract a new type of negative rules that seems interesting : the rules for which the antecedent and the consequent are conjunctions of negative itemsets. Our study ends with a quantitative and qualitative comparison with other positive and negative association rules mining algorithms on various databases of the literature. Our software ARA (Association Rules Analyzer ) facilitates the qualitative analysis of the algorithms by allowing to compare intuitively the algorithms and to apply in post-process treatments various quality measures. Finally, our proposal improves the extraction in the number and the quality of the extracted rules but also in the rules search path.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque Clermont Université (Clermont-Ferrand).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.