Auteur / Autrice : | Hacène Cherfi |
Direction : | Amedeo Napoli |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2004 |
Etablissement(s) : | Nancy 1 |
Partenaire(s) de recherche : | autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques |
Mots clés
Résumé
Ce travail porte sur la problématique d'extraction de connaissances à partir de textes ou fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de données et l'interprétation des connaissances extraites. Un système d'extraction des connaissances pour analyser les textes en fonction de leur contenu est étudié. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents et l'extraction de règles d'association. Le processus de FdT est défini ainsi que ses propriétés. Une étude d'un ensemble de mesures de qualité qu'il est possible d'attacher aux règles est menée. Il est montré quel rôle ces mesures peuvent avoir sur l'interprétation des règles extraites. L'utilisation d'un modèle de connaissances vient appuyer cette approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant celles qui sont déjà décrites par un modèle du domaine. Les règles peuvent donc être utilisées pour alimenter ce modèle. La thèse inclut la réalisation du système TAMIS et une expérience sur des données réelles de textes en biologie moléculaire.