Thèse soutenue

Extraction optimisée de règles d'association positives et négatives intéressantes

FR  |  
EN
Auteur / Autrice : Pierre-Antoine Papon
Direction : Alain Quilliot
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/06/2016
Etablissement(s) : Clermont-Ferrand 2
Ecole(s) doctorale(s) : École doctorale des sciences pour l'ingénieur (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes - (LIMOS) Laboratoire d'Informatique- de Modélisation et d'optimisation des Systèmes
Jury : Président / Présidente : Ali Khenchaf
Examinateurs / Examinatrices : Alain Quilliot, Sylvie Guillaume
Rapporteurs / Rapporteuses : Ali Khenchaf, Israël César Lerman

Résumé

FR  |  
EN

L’objectif de la fouille de données consiste à extraire des connaissances à partir de grandes masses de données. Les connaissances extraites peuvent prendre différentes formes. Dans ce travail, nous allons chercher à extraire des connaissances uniquement sous la forme de règles d’association positives et de règles d’association négatives. Une règle d’association négative est une règle dans laquelle la présence ainsi que l’absence d’une variable peuvent être utilisées. En considérant l’absence des variables dans l’étude, nous allons élargir la sémantique des connaissances et extraire des informations non détectables par les méthodes d’extraction de règles d’association positives. Cela va par exemple permettre aux médecins de trouver des caractéristiques qui empêchent une maladie de se déclarer, en plus de chercher des caractéristiques déclenchant une maladie. Cependant, l’ajout de la négation va entraîner différents défis. En effet, comme l’absence d’une variable est en général plus importante que la présence de ces mêmes variables, les coûts de calculs vont augmenter exponentiellement et le risque d’extraire un nombre prohibitif de règles, qui sont pour la plupart redondantes et inintéressantes, va également augmenter. Afin de remédier à ces problèmes, notre proposition, dérivée de l’algorithme de référence A priori, ne va pas se baser sur les motifs fréquents comme le font les autres méthodes. Nous définissons donc un nouveau type de motifs : les motifs raisonnablement fréquents qui vont permettre d’améliorer la qualité des règles. Nous nous appuyons également sur la mesure M G pour connaître les types de règles à extraire mais également pour supprimer des règles inintéressantes. Nous utilisons également des méta-règles nous permettant d’inférer l’intérêt d’une règle négative à partir d’une règle positive. Par ailleurs, notre algorithme va extraire un nouveau type de règles négatives qui nous semble intéressant : les règles dont la prémisse et la conclusion sont des conjonctions de motifs négatifs. Notre étude se termine par une comparaison quantitative et qualitative aux autres algorithmes d’extraction de règles d’association positives et négatives sur différentes bases de données de la littérature. Notre logiciel ARA (Association Rules Analyzer ) facilite l’analyse qualitative des algorithmes en permettant de comparer intuitivement les algorithmes et d’appliquer en post-traitement différentes mesures de qualité. Finalement, notre proposition améliore l’extraction au niveau du nombre et de la qualité des règles extraites mais également au niveau du parcours de recherche des règles.