Evaluation qualitative et guidage des utilisateurs en fouille visuelle de données

par Edwige P. Fangseu Badjio

Thèse de doctorat en Informatique

Sous la direction de Djamel Abdelkader Zighed.

Soutenue en 2005

à Lyon 2 .


  • Résumé

    Nos travaux s'inscrivent dans le domaine de la fouille visuelle de données (plus précisément en classification) et se fondent sur l'extraction de connaissances dans les données, l'apprentissage automatique, la qualité des interfaces et des logiciels, l'ergonomie des logiciels, le génie logiciel et l'interaction homme machine. L'évaluation de la qualité des modèles obtenus est basée la plupart du temps sur une estimation du taux de mauvaise classification. Cette estimation du taux de mauvaise classification est nécessaire mais pas suffisante pour l'évaluation de la qualité des outils de fouille visuelle de données. En effet, les outils et techniques de ce type utilisent des interfaces, des représentations graphiques, des ensembles de données et nécessitent la participation des utilisateurs finaux. Partant d'un état de l'art sur la visualisation, la fouille visuelle et la qualité des logiciels, nous proposons une méthode d'inspection experte et une méthode de diagnostic pour une analyse et une évaluation qualitative fine qui tient compte des spécificités du domaine abordé. Nous avons développé des guides de style et des critères de qualité pour l'analyse et le diagnostic des outils de fouille visuelle. Du point de vue des utilisateurs, afin d'utiliser les informations relatives à leurs profils et à leurs préférences tout au long du processus de fouille, nous avons aussi proposé un modèle de l'utilisateur final des outils de fouille visuelle. Des études de cas menées avec la méthode de diagnostic proposée nous permettent de relever des problèmes autres que ceux résultant de l'estimation du taux de mauvaise classification. Ce travail présente aussi des solutions apportées à deux problèmes recensés durant l'analyse et le diagnostic des outils de fouille visuelle existants : le choix du meilleur algorithme pour une tâche de classification supervisée et le prétraitement de grands ensembles de données. Nous avons considéré le problème du choix du meilleur algorithme de classification comme un problème de décision multicritères. L'intelligence artificielle permet d'apporter des solutions à l'analyse multicritères. Nous utilisons les résultats issus de ce domaine à travers le paradigme multi-agents et le raisonnement à partir de cas pour proposer une liste d'algorithmes d'efficacité décroissante pour la résolution d'un problème donné et faire évoluer les connaissances de la base de cas. En ce qui concerne le traitement des ensembles de données de très grande taille, les limites de l'approche visuelle concernant le nombre d'individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter ces ensembles de données, une solution possible est d'effectuer un prétraitement de l'ensemble de données avant d'appliquer l'algorithme interactif de fouille. La réduction du nombre d'individus est effectuée par l'application d'un algorithme de clustering, la réduction du nombre de dimensions se fait par la combinaison des résultats d'algorithmes de sélection d'attributs en appliquant de la théorie du consensus (avec une affectation visuelle des poids). Nous évaluons les performances de nos nouvelles approches sur des ensembles de données de l'UCI et du Kent Ridge Bio Medical Dataset Repository.


  • Pas de résumé disponible.

  • Titre traduit

    Qualitative evaluation and user's guidance in visual data mining


  • Résumé

    The research context of these works is the visual data mining domain and more precisely supervised data classification. Other related fields are: knowledge extraction in the data, machine learning, quality of interface, software ergonomic, software engineering and human machine interaction. The result provided by a visual data mining tool is a data model. Generally, in order to access the quality of visual data mining tools, there is an estimation of the rate of bad classification. We believe that, this estimation is necessary but not sufficient for the evaluation of visual data mining tools. In fact, this type of tools use interfaces, graphical representations, data sets and require the participation of the end-users. On the basis of a state of the art on visualization, visual data mining and software quality, we propose two analysis and evaluation methods: an inspection method for experts and a diagnosis method which can be used by end-users for analysis and quality evaluation that takes account of the specificities of the treated domain. We developed guidelines and quality criteria (measures and metrics) for the analysis and the diagnosis of the visual data mining tools. From the users' point of view, in order to use information relating to their profiles and their preferences throughout the mining process, we also proposed a user model of visual data mining tools. Case studies performed with the proposed diagnosis method enable us to raise other problems than those resulting from the estimation of the rate of bad classification. This work presents also solutions brought to two problems listed during the analysis and the diagnosis of some existing visual data mining tools: the choice of the best algorithm to perform for a supervised classification task and the pre-treatment of very large data sets. We considered the problem of the choice of the best classification algorithm as a multi criteria decision problem. Artificial intelligence allows bringing solutions to the multi criteria analysis. We use the results coming from this domain through the multi-agents paradigm and the case based reasoning to propose a list of algorithms of decreasing effectiveness for the resolution of a given problem and to evolve knowledge of the case base. For the treatment of very large data sets, the limits of visual approaches concerning the number of records and the number of attributes are known. To be able to treat these data sets, a solution is to perform a pre-treatment of the data set before applying the interactive algorithm. The reduction of the number of records is performed by the application of a clustering algorithm, the reduction of the number of attributes is done by the combination of the results of feature selection algorithms by applying the consensus theory (with a visual weight assignment tool). We evaluate the performances of our new approaches on data sets of the UCI and the Kent Ridge Bio Medical Dataset Repository.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xii-181 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 167-181

Où se trouve cette thèse ?

  • Bibliothèque : Université Lumière (Bron). Service commun de la documentation. Bibliothèque universitaire.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.