Thèse soutenue

Apprentissage statistique pour l'extraction de concepts a partir de textes. Application au filtrage d'informations textuelles

FR
Auteur / Autrice : Nicolas Turenne
Direction : Bernard Keith
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques communes. Terre, océan, espace
Date : Soutenance en 2000
Etablissement(s) : Strasbourg 1

Résumé

FR

Cette these presente un modele de construction automatique et approximatif de la representation du sens d'un texte. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais clustering ) faisant apparaitre des themes semantiques. Il faut ameliorer les techniques en leur permettant de traiter les documents non indexes, en ameliorant les resultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantite grandissante d'informations electroniques permet de constituer des echantillons de donnees varies et significatifs. Les techniques pour decrire les relations entre termes sont issues de methodes mathematiques usuellement appliquees aux donnees structurees non textuelles. Le couplage de connaissances propres aux donnees avec une methodologie adaptee aux donnees textuelles devrait apporter une amelioration des resultats. Nous tentons de justifier : d'une part l'utilisation de mecanismes linguistiques reduisant les biais d'une statistique descriptive des occurrences d'un terme, d'autre part l'utilisation d'une methode basee sur les graphes dont les motifs permettraient de recuperer les relations conceptuelles entre termes. Dans un troisieme temps nous facilitons l'interpretation de resultats emanant de traitements automatiques par la qualification consensuelle du theme represente par une classe. L'interpretation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualite facilitent l'interpretation, assistee par un thesaurus, que l'on peut attribuer a la structuration conceptuelle des termes d'un domaine. Le developpement