Etude et réalisation d'un système d'extraction de connaissances à partir de textes

par Hacène Cherfi

Thèse de doctorat en Informatique

Sous la direction de Amedeo Napoli.


  • Résumé

    Ce travail porte sur la problématique d'extraction de connaissances à partir de textes ou fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de données et l'interprétation des connaissances extraites. Un système d'extraction des connaissances pour analyser les textes en fonction de leur contenu est étudié. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents et l'extraction de règles d'association. Le processus de FdT est défini ainsi que ses propriétés. Une étude d'un ensemble de mesures de qualité qu'il est possible d'attacher aux règles est menée. Il est montré quel rôle ces mesures peuvent avoir sur l'interprétation des règles extraites. L'utilisation d'un modèle de connaissances vient appuyer cette approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant celles qui sont déjà décrites par un modèle du domaine. Les règles peuvent donc être utilisées pour alimenter ce modèle. La thèse inclut la réalisation du système TAMIS et une expérience sur des données réelles de textes en biologie moléculaire.


  • Résumé

    This PhD dissertation relates to the problems of knowledge extraction from texts, or text mining (TM). It is applied to the text analysis, the datamining process itself, and the interpretation of the elements of knowledge extracted. A system of knowledge extraction necessary to analyse the texts according to their contents is studied. The methods of datamining used are: frequent itemset levelwise search and association rule extraction. The definition of the process of TM and its main characteristics is done. A study of a number of quality measures attached to the rules is carried out. It is shown how far these quality measures can help the interpretation of the extracted rules. The use of a knowledge model comes to support this approach. It is shown, by the definition of a likelihood probability measure, the significance to discover new knowledge by discarding knowledge already described in the domain model. The rules can be used to enrich the knowledge model of the selected domain. This dissertation includes the implementation of the TAMIS system: "Text Analysis by Mining Interesting ruleS" and an experiment on a real-world text corpus holding on molecular biology.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : XII-146 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 113-123

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Disponible pour le PEB
  • Cote : SC n2004 164
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : CHERFI e
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : CHERFI e
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.