Construction de cartes pour l'exploration de corpus

par Isabelle Debourges

Thèse de doctorat en Informatique

Sous la direction de Christel Vrain.

Soutenue en 2002

à Orléans .

  • Titre traduit

    Building text maps for large corpora exploration


  • Pas de résumé disponible.


  • Résumé

    Cette thèse s'inscrit dans une problématique qui intéresse principalement deux domaines de recherche en Informatique: il s'agit du Traitement Automatique des Langues d'une part et de l'Apprentissage Automatique d'autre part. Notre objectif est d'extraire des termes autour d'un thème (matérialisé par la requête de l'utilisateur), en explicitant les liens qui les unissent. Il s'agit de générer des cartes de textes donnant une représentation partielle du contenu sémantique de larges corpus homogènes, centrées autour de requêtes posées par l'utilisateur. Plus particulièrement, une carte est composée - d'un ensemble de mots clés fournis par l'utilisateur (la requête), - des concepts fortement liés à cette requête, - des liens entre mots clés et concepts, exprimés au sein du corpus. Cette problématique a été vue comme une structuration de terminologie: une première phase extrait les concepts, une seconde étiquette les liens. Les algorithmes proposés reposent sur des méthodes statistiques utilisant la collocation et des indices linguistiques, pour mettre en évidence des corrélations entre unités lexicales. Les principaux points originaux de cette thèse résident dans - le mode de recherche des concepts fortement liés à la requête: il est basé sur une recherche de point fixe - l'étiquetage des relations par des labels verbaux, éventuellement enrichis d'une orientation et de prépositions. Les algorithmes proposés ont fait l'objet d'une implantation au sein d'un outil. Des résultats obtenus sur un panel de cinq corpus de langues, genres et thématiques divers sont présentés. Une campagne d'évaluation des résultats obtenus sur le livre Introduction au Langage C de Bernard Cassagne, par trois catégories d'experts, a permis de quantifier la qualité des éléments extraits.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 262 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 195-204

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Orléans. Service commun de la documentation.Section Sciences.
  • Disponible pour le PEB
  • Cote : TS 19-2002-37
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.