Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles

par Maria Zimina

Thèse de doctorat en Sciences du langage

Sous la direction de André Salem.

Soutenue en 2004

à Paris 3 .


  • Résumé

    Ce travail présente les résultats d’une série de recherches consacrées au développement d’une nouvelle famille d’outils d’exploration textométrique intertextuelle. De nombreuses méthodes de statistique textuelle ont été articulées et adaptées au cadre multilingue : la méthode des segments répétés, les spécificités, la topographie bi-textuelle, les cooccurrences multiples, l’analyse factorielle des correspondances, la classification automatique, etc. L’utilisation de chaque méthode dans le contexte multilingue est illustrée par des exemples d’applications concrètes, accompagnés d’échantillons de ressources traductionnelles obtenues à partir du corpus parallèle français/anglais de la Convention de sauvegarde de Droits de l’Homme. Les perspectives ouvertes par cette approche offrent aux traducteurs, enseignants des langues étrangères, terminologues, lexicographes, etc. Des moyens automatisés pour explorer la structure des équivalences lexicales dans les corpus de traduction.

  • Titre traduit

    Quantitative approaches of extracting translation resources from parallel corpora


  • Résumé

    This research work presents the results of a series of experiments devoted to the development of new tools for intertextual textometric exploration of translation corpora. Various methods of textual statistics have been adapted for use in multilingual context and put into practice for parallel text processing, such as repeated segments extraction, characteristic elements computation, bi-textual topography, multiple co-occurrences, factorial analysis, automatic classification, etc. Examples of concrete applications illustrate the use of each of these methods in multilingual context. These examples are accompanied by sample translation resources obtained on quantitative bases from the parallel French/English corpus of the Convention for the Protection of Human Rights. The suggested approach opens up new horizons for automatic exploration of lexical equivalences of translation corpora by a variety of users: translators, foreign language teachers, terminologists, lexicographers, etc.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 328 f.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 256-277. Glossaire. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Sorbonne Nouvelle. Direction des Bibliothèques Universitaires. Section Censier.
  • Disponible pour le PEB
  • Bibliothèque : Université Sorbonne Nouvelle. Direction des Bibliothèques Universitaires. Section Censier.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
  • Cote : MC 8202
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.