Identification et exploitation de contextes riches en connaissances pour l'aide à la traduction terminologie

par Firas Hmida

Thèse de doctorat en Informatique

Sous la direction de Emmanuel Morin et de Béatrice Daille.

Le président du jury était Cécile Fabre.

Les rapporteurs étaient Alexandre Allauzen.


  • Résumé

    Les outils de traduction assistée par ordinateur et de gestion terminologique sont le plus souvent utilisés pour répondre au besoin de la gestion de l’écrit multilingue et monolingue. En effet, ils facilitent l’accès aux termes techniques et aux expressions liés à des domaines de spécialité, et indispensables à tout processus de communication. La compréhension de ces expressions techniques peut être potentialisée au moyen de leur « contextualisation ». Néanmoins, avoir accès à un terme ou à sa traduction ne suffit pas, encore faut-il être capable de l’employer correctement et d’en appréhender le sens exact. Cette contextualisation a donc lieu à deux niveaux : dans les textes et dans la terminologie. Au niveau textuel, l’utilisateur doit avoir accès à des informations concernant l’usage des termes, à savoir des contextes riches en connaissances linguistiques. Au niveau terminologique, il doit avoir accès aux relations sémantiques ou conceptuelles entre termes afin de mieux en saisir le sens, à savoir des contextes riches en connaissances conceptuelles. Dans le cadre de cette thèse, nous avons proposé une stratégie d’extraction de contextes riches en connaissances (CRC) permettant de produire un premier prototype de dictionnaires terminologiques. Nous avons poursuivi nos travaux dans un cadre bilingue et plus particulièrement en phase de révision du processus de traduction spécialisée. Nous avons proposé une méthodologie d’élaboration d’un concordancier bilingue fournissant des CRC alignés à partir de corpus comparables spécialisés. Les évaluations menées montrent que les CRC proposés sont utiles malgré la difficulté de l’exercice étudié.

  • Titre traduit

    Identification and exploitation of knowledge-rich contexts for terminological assisted translation


  • Résumé

    Computer-assisted translation and terminology management tools are often used to meet the needs in management of multilingual and monolingual writings. These tools facilitate the access to technical terms and expressions that are related to areas of specialty, and essential to any communication process. The understanding of technical terms can be potentiated by their “contextualization”. However, having access to a term or its translation is not enough, since it is also necessary to be able to use it properly and to understand its exact meaning. Thus, this contextualization is estabilished on two levels: in texts and in the terminology. In texts, the user must have access to information regarding the use of terms, namely linguistic knowledge-rich contexts. In the terminology, the user requires access to semantic or conceptual relationships between the terms to better understand its meaning, namely conceptual rich-knowlegde contexts. In the framework of this thesis, we proposed a strategy for extracting Knowledge-Rich Contexts (KRCs) to produce a new terminological dictionary. It is to provide, for each term and its possible translations, the KRCs in which it occurs. We continued our work in a bilingual phase part of specialized translation, under continuous revision. We propose a new generation of bilingual concordancers that take as input a term and its translation, and provides not parallel, but aligned Knowledge-Rich Contexts from specialized comparable corpora. The evaluation show that our concordancer can assist revisers despite the difficulty of the task.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.