Traitement automatique des termes composés : segmentation, traduction et variation

par Elizaveta Loginova Clouet

Thèse de doctorat en Informatique, Traitement Automatique du Langage Naturel

Sous la direction de Béatrice Daille.

Le président du jury était Natalie Kübler.

Le jury était composé de Natalie Kübler, Nabil Hathout.

Les rapporteurs étaient Nabil Hathout.


  • Résumé

    Le nombre de termes spécialisés croît constamment dans les documents, à un rythme difficile à suivre pour les organismes de normalisation de la terminologie. Les méthodes de construction des lexiques terminologiques bilingues à partir de corpus de textes proposent des solutions. Notre thèse s’inscrit dans cette problématique : la construction de lexiques bilingues à partir de corpus comparables. Les termes composés (les termes contenant plusieurs radicaux, mais un seul mot graphique) constituent un défi pour les applications du traitement automatique des langues. Étant donné leur forme graphique, ils sont souvent traités comme des termes simples, ce qui empêche de capturer leur complexité sémantique. Notre participation à une évaluation d’extraction automatique de termes a permis de vérifier notre hypothèse : les termes composés nécessitent un traitement particulier dans un contexte multilingue. Nous avons proposé une méthode de reconnaissance et de segmentation des termes composés, combinant des caractéristiques dépendantes et indépendantes de la langue. Elle permet d’obtenir des résultats comparables à ceux des méthodes de l’état de l’art, tout en étant validée sur un échantillon de familles de langues varié (germanique, slave, romane) et adaptable au domaine de spécialité (vérifiée sur deux domaines : l’énergie éolienne et le cancer du sein). Nous avons exploité les segmentations produites pour la traduction compositionnelle des termes et pour la détection des variantes syntagmatiques des termes composés dans les textes spécialisés. Ces deux expériences illustrent l’utilité de la segmentation pour la construction des lexiques terminologiques bilingues.

  • Titre traduit

    Processing of Compound Terms : Segmentation, Translation and Variation


  • Pas de résumé disponible.


  • Résumé

    The number of specialized terms continuously grows in the documents, at a pace which is difficult to follow for the terminology standardization organizations. The methods of bilingual term lexicon construction from the text corpora provide solutions. Our thesis falls into this topic: bilingual lexicon acquisition from comparable corpora. Compound terms (terms containing several roots, but a single graphical unit) are challenging for natural language processing applications. Given their graphical form, they are often handled in the same manner as single word terms, which prevents from apprehending their semantic complexity. Our involvement in an automatical terminology extraction evaluation allowed us to check our hypothesis: compound terms need a particular processing in a multilingual context. We proposed a method for compound terms recognition and splitting, which combines language-independent and language-specific features. It allowed us to obtain results comparable with those of state-of-the-art methods, while validating on a sample of languages from several families (germanic, slavic, romance languages), and adapting the method to specialized domains (tested on two domains: wind energy and breast cancer). We used the produced segmentations for compositional translation of compound terms, and for their multi-word variant recognition in the specialized texts. These two experiments illustrate that compound splitting is beneficial for the bilingual term lexicon acquisition task.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (160 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr p.153-160.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.