Apprentissage statistique pour l'extraction de concepts a partir de textes. Application au filtrage d'informations textuelles

par NICOLAS TURENNE

Thèse de doctorat en Sciences et techniques communes. Terre, océan, espace

Sous la direction de Bernard Keith.

Soutenue en 2000

à Strasbourg 1 .

    mots clés mots clés


  • Résumé

    Cette these presente un modele de construction automatique et approximatif de la representation du sens d'un texte. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais clustering ) faisant apparaitre des themes semantiques. Il faut ameliorer les techniques en leur permettant de traiter les documents non indexes, en ameliorant les resultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantite grandissante d'informations electroniques permet de constituer des echantillons de donnees varies et significatifs. Les techniques pour decrire les relations entre termes sont issues de methodes mathematiques usuellement appliquees aux donnees structurees non textuelles. Le couplage de connaissances propres aux donnees avec une methodologie adaptee aux donnees textuelles devrait apporter une amelioration des resultats. Nous tentons de justifier : d'une part l'utilisation de mecanismes linguistiques reduisant les biais d'une statistique descriptive des occurrences d'un terme, d'autre part l'utilisation d'une methode basee sur les graphes dont les motifs permettraient de recuperer les relations conceptuelles entre termes. Dans un troisieme temps nous facilitons l'interpretation de resultats emanant de traitements automatiques par la qualification consensuelle du theme represente par une classe. L'interpretation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualite facilitent l'interpretation, assistee par un thesaurus, que l'on peut attribuer a la structuration conceptuelle des termes d'un domaine. Le developpement


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 265 p.
  • Annexes : 150 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Strasbourg. Service commun de la documentation. Bibliothèque Danièle Huet-Weiller.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.