Optimisation de requêtes inductives : application à l'extraction sous contraintes de règles d'association

par Baptiste Jeudy

Thèse de doctorat en Informatique et information pour la société

Sous la direction de Lionel Brunie et de Jean-François Boulicaut.

Soutenue en 2002

à Villeurbanne, INSA .


  • Résumé

    L'utilisation de plus en plus généralisée de l'informatique permet de récolter de plus en plus de données de manière automatique, que ce soit en sciences (biologie, astronomie, etc) ou dans le commerce (en particulier sur internet). L'analyse de telles quantités de données est problématique. Les techniques d'extraction de connaissances dans les données (ECD) ont été conçues pour répondre à ce besoin. Dans cette thèse, nous avons utilisé la notion de base de données inductive comme cadre pour notre travail. Une base de données inductive est une généralisation des bases de données classiques dans lesquelles sont stockées non seulement des données mais aussi des propriétés apprises sur ces données. On peut alors voir le processus d'ECD comme l'interrogation d'une base de données inductive. Nous avons particulièrement étudié l'optimisation des requêtes inductives portant sur l'extraction des règles d'association et des itemsets. Dans ce cas, l'utilisateur peut préciser les règles ou les itemsets qui l'intéressent en utilisant des contraintes. Ces dernières peuvent, par exemple, porter sur la fréquence ou imposer des restrictions syntaxiques sur les itemsets ou les règles à extraire. Nous avons proposé différentes stratégies d'évaluation des requêtes d'extraction de règles ou d'itemsets en utilisant efficacement les contraintes (en particulier les contraintes dites monotones ou anti-monotones). Nous avons également étudié l'apport des représentations condensées dans l'optimisation de l'évaluation de ces requêtes et nos expériences montrent que l'utilisation simultanée des contraintes et des représentations condensées donne de très bons résultats. Nous avons aussi utilisé les représentations condensées comme caches pour l'optimisation de séquences de requêtes. Ici encore, les résultats sont bons et l'utilisation des représentations condensées permet d'obtenir des caches remarquablement petits.

  • Titre traduit

    = Inductive query optimization : extraction of constrained association rules


  • Résumé

    The increasingly generalized use of data processing makes it possible to collect more and more data in an automatic way, e. G. In sciences (biology, astronomy, etc) or in the trade (Internet). The analysis of such quantities of data is problematic. Knowledge Discovery in Databases (KDD) techniques were conceived to meet this need. In this thesis, we used the inductive database as a framework for our work. An inductive database is a generalization of the traditional databases in which the user can query not only the data but also properties learned on the data. One can then see the whole KDD process as the interrogation of an inductive database. In this thesis, we particularly studied the optimization of inductive queries relating to the extraction of association rules and itemsets. In this case, the user can specify the rules or the itemsets of interest by using constraints. These constraints can, e. G. , specify a frequency threshold or impose syntactic restrictions on the itemsets or the rules. We propose various strategies for the evaluation of rules and itemsets extraction queries by effectively using the constraints (in particular constraints known as monotonic and anti-monotonic). We studied the use of condensed representations in the optimization of the evaluation of these requests and our experiments show that the simultaneous use of the constraints and the condensed representations gives very good results. We also show how to use condensed representations as a cache for optimization of sequences of queries. Here still, the results are good and the use of the condensed representations makes it possible to obtain much smaller cache than with previous techniques.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol.(138 p).
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.129-138

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(2675)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.