Résumé de données en extraction de connaissances à partir des données (ECD) : application aux données relationnelles et textuelles
Auteur / Autrice : | Gaëtan Gaumer |
Direction : | Mohamed Quafafou |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Nantes |
Ecole(s) doctorale(s) : | École doctorale sciences et technologies de l'information et des matériaux (Nantes) |
Partenaire(s) de recherche : | autre partenaire : Université de Nantes. Faculté des sciences et des techniques |
Mots clés
Mots clés contrôlés
Résumé
Les travaux présentés dans cette thèse ont été réalisés dans le cadre d'un contrat CNET JMINER, dont le but est l'étude de pré-traitement et post-traitements en extraction de connaissances à partir des données, appliqués aux lettres de réclamation de France Télécom. Les caractéristiques particulières des données de cette application ont orienté nos travaux de recherche. Nous nous sommes tout d'abord intéressés aux problèmes liés à l'extraction de connaissances à partir de très importants volumes de données. Nous proposons, pour résoudre ces problèmes, de remplacer les données à traiter par un résumé de ces données possédant les mêmes caractéristiques. Cette proposition s'est concrétisée par le développement du logiciel CFSUMM, un système de création de résumés de données utilisant des mesures de similarités et d'indiscernabilités entre instances. Nous montrons pourquoi et comment les caractéristiques de ce logiciel le destine particulièrementà la réduction d'importants volumes de données, qu'ils soient issus de bases de données relationnelles ou d'indexation de documents non structurés (texte, html, etc). . .