Extraction de connaissances à partir de données numériques et textuelles

par Jérôme Azé

Thèse de doctorat en Informatique

Sous la direction de Yves Kodratoff.

Soutenue en 2003

à Paris 11 .


  • Résumé

    Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles. L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes. Les experts des données ont souvent des difficultés pour déterminer ce support. Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité. Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association ". Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert. Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes. Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal. Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées. Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues. Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes. Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié. Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci. Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.


  • Résumé

    The work realised within the framework of this thesis relates to the retrieval of knowledge in transactional data. The analysis of such data is often linked to the definition of a minimal support uses to filter uninteresting knowledge. The experts of the data often have difficulties to determine this support. We have proposed a method enabling to fix no minimal support and based on the use of measures of quality. We choose to focus on the extraction of knowledge of the form "association rules". These rules must verify one or more quality standards to be considered as interesting and proposed to the expert. We have defined two measures of quality combining differents criteria and allowing us to extract interesting rules from the data. We thus could propose an algorithm allowing to extract these rules without using the constraint of the minimal support. The behavior of our algorithm has been studied with noisy data and we could highlight the difficulty of automatically extracting reliable knowledge from noisy data. One of the solutions which has been proposed consists to evaluate the noise resistance of each rule and to inform the expert during this analysis and validation of knowledge obtained. Lastly, a study on real data has been done within the framework of a process text mining. The knowledge looked for in these texts are association rules between concepts defined by the expert and specific to the field. We have proposed a tool extracting knowledge and assisting the expert during its validation. The various results obtained show that it is possible to extract interesting knowledge from textual data while minimizing the expert involvement in the association rules extraction step.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 170 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.[157]-162

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : M/Wg ORSA(2003)315
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : AZE e
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.