Acquisition sémantique en langue générale : la paradocumentation textuelle pour l'indexation des documents audiovisuels sur la politique

par Karine Lespinasse Ide Lafargue

Thèse de doctorat en Sciences du langage

Sous la direction de Benoît Habert.

Soutenue en 2002

à Paris 3 .


  • Résumé

    A l'INA (Institut National de l'Audiovisuel), lieu des archives télévisées françaises, nous proposons des pistes de traitements automatisés de la " paradocumentation ". La paradocumentation rassemble les documents (textuels, photographiques) qui jalonne le cycle de vie du document audiovisuel. Dans la mesure où les " péritextes " existent au format électronique, il est possible de les constituer en corpus dont le contenu est étroitement lié au document audiovisuel et qui peuvent donc enrichir la description documentaire. L'enjeu scientifique réside dans l'exploitation des résultats de traitements appliqués à une langue générale avec une approche développée pour les langages techniques (méthodes, outils). Ce choix s'explique de manière pragmatique (absence d'autres outils) mais aussi théorique : la langue générale est un défi pour les traitements automatisés. Nous avons mené plusieurs expériences d'acquisition sémantique, sur différents " péritextes " pointant sur des émissions de politique : notices documentaires, transcriptions de bande-son, articles de presse. . .

  • Titre traduit

    Semantic acquisition in general language : textual "paradocumentation" to assist audiovisual document indexing in politics


  • Résumé

    In order to respond to the documentation needs of the INA (the National Broadcasting Institute), which indexes French television program archives, we propose to use "paradocumentation" in computer-aided treatments. The so-called "paradocumentation" is comprised of all of the textual or photographic documents produced in the making of the audiovisual document. As long as the "peritexts" exist in an electronic format, they can be structured in the form of corpora of which the content is closely linked to the audiovisual program and can therefore enrich its description. The scientific goal is to exploit the results obtained from the treatments in a general language with an approach historically developed for sublanguages (methods, tools). There is a pragmatic reason for this choice (no other tools are available) as well as a theoretical one : general language resists automation as showed by Zellig Harris. We have conducted several experiments on the semantic acquisition of different peritexts taken from political programs : indexing files, transcriptions from soundtracks, press articles. . .

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 360 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 257-263. Index. Glossaire

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Sorbonne Nouvelle. Direction des Bibliothèques Universitaires. Section Censier.
  • Consultable sur place dans l'établissement demandeur

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne. Fonds général.
  • Non disponible pour le PEB
  • Cote : MC 6196
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.