Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnels

par Rima Harastani

Thèse de doctorat en Informatique, Traitement automatique du langage naturel

Sous la direction de Emmanuel Morin et de Béatrice Daille.

Le président du jury était Holger Schwenk.

Le jury était composé de Emmanuel Morin, Béatrice Daille, Holger Schwenk, Hervé Blanchon, Ulrich Heid.

Les rapporteurs étaient Hervé Blanchon, Ulrich Heid.


  • Résumé

    Notre travail concerne l’extraction automatique d’une liste de termes alignés avec leurs traductions (c’est-à-dire un lexique bilingue spécialisé) à partir d’un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l’amélioration de la qualité d’un lexique bilingue spécialisé extrait à partir d’un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d’un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol.

  • Titre traduit

    Lexical alignment from comparable corpora : the case of neoclassical compounds and relational adjectives


  • Résumé

    Our work concerns the automatic extraction of a list of aligned terms with their translations (i. E. Specialized bilingual lexicon) from comparable corpora belonging to a specific domain. Comparable corpora include texts written in two languages which are not mutual translations but belong to the same domain. This thesis contributes to the improvement of the quality of an extracted bilingual lexicon. We propose methods dedicated to the translation of two types of terms that have common characteristics among many languages or that cause specific problems for translation due to their nature. These types of terms are the neoclassical compounds (terms containing at least one root borrowed from Greek or Latin) and the terms composed of one noun and one relational adjective. We also propose a method that exploits contexts rich in domain-specific terms to re-rank some provided translations in a bilingual lexicon for a given term. The experiments are performed using two specialized comparable corpora (in the domains of Breast Cancer and Renewable Energy), on the French, English, German and Spanish languages.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (151 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie p. 143-151

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.