Extraction d'information dans des textes libres guidée par une ontologie : faciliter l'indexation du rendu audiovisuel d'un événement par l'indexation conceptuelle de textes relatant cet événement

par Estelle Le Roux

Thèse de doctorat en Sciences du langage

Sous la direction de Benoît Habert.

Soutenue en 2003

à Paris 10 .


  • Résumé

    L'INA a besoin pour que ses archives audiovisuelles puissent être utilisées de bien connaître le contenu de ses documents. Les documentalistes doivent alors visionner ces documents et les indexer. Afin d'apporter une aide aux documentalistes, nous avons créé un système d'extraction d'information s'appliquant sur des articles de presse écrite. Nous partons de l'hypothèse q'un même événement est, à la fois, décrit dans la presse écrite et visible à la télévision. Nous avons alors conc��u notre système en nous servant d'une ontologie du domaine pour créer un dictionnaire sémantique et des patrons syntaxico-sémantiques. Nous obtenons, en sortie, des index conceptuels qui pourront être utilisés par les documentalistes lors de l'indexation. Les résultats obtenus sont mitigés : la grande variabilité de la langue dans les articles entra^inent la création d'un nombre important de patrons mais la presse écrite permet d'extraire des informations pertinentes pour l'INA.

  • Titre traduit

    Information extraction in free texts guided by an ontology : to facilitate the indexing of audiovisual content of an event by the conceptual indexing of texts relating this event


  • Résumé

    INA needs so that its audio-visual files can be used to know the contents of its documents well. The documentalists must then view these documents and index them. In order to bring a help to the documentalists, we created an information extraction system while being useful to us of an ontology to create a semantic dictionary and syntaxical and semantic patterns. At the end, we obtain conceptual indices which could be used by the documentalists at the time of indexing. The results obtained are mitigated : the great variability of the language in the articles involves the creation of a significant number of patterns but the newspaper makes it possible to extract relevant information for INA.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 243-95 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 207-215. Glossaire. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Ouest Nanterre La Défense. Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : T 03 PA10-27
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.