Système de traduction automatique français-chinois dans le domaine de la sécurité globale

par Gan Jin

Thèse de doctorat en Sciences du langage. Traitement automatique des langues

Sous la direction de Sylviane Cardey-Greenfield.

Le président du jury était Dan Xu.

Le jury était composé de Sylviane Cardey-Greenfield, Dan Xu, Bohdan Krzysztof Bogacki, Christophe Roche.

Les rapporteurs étaient Bohdan Krzysztof Bogacki, Christophe Roche.


  • Résumé

    Dans ce mémoire, nous présentons outre les résultats de recherche en vue d’un système de traduction automatique français–chinois, les apports théoriques à partir de la théorie SyGULAC et de la théorie micro-systémique avec ses calculs ainsi que les méthodologies élaborées tendant à une application sure et fiable dans le cadre de la traduction automatique. L’application porte sur des domaines de sécurité critique tels que l’aéronautique, la médecine, la sécurité civile. Tout d’abord un état de l’art du domaine de la traduction automatique, en Chine et en France, est utile pour commencer la lecture. Les faiblesses des systèmes actuels à travers des tests que nous réalisons prouvent l’intérêt de cette recherche. Nous donnons les raisons pour lesquelles nous avons choisi la théorie micro-systémique et la théorie SyGULAC. Nous expliquons ensuite les problématiques rencontrées au cours de notre recherche. L’ambigüité, obstacle majeur pour la compréhensibilité et la traductibilité d’un texte, se situe à tous les niveaux de la langue : syntaxique, morphologique, lexical, nominal ou encore verbal. L’identification des unités d’une phrase est aussi une étape préalable à la compréhension globale, que cela soit pour un être humain ou un système de traduction. Nous dressons un état des lieux de la divergence entre la langue française et la langue chinoise en vue de réaliser un système de traduction automatique. Nous essayons d’observer la structure aux niveaux verbal, nominal et lexical, de comprendre leurs liens et leurs interactions. Egalement nous définissons les obstacles sources d’entrave à la réalisation de cette recherche, avec un point de vue théorique mais aussi en étudiant notre corpus concret. Le formalisme pour lequel nous avons opté part d’une étude approfondie de la langue utilisée dans les protocoles de sécurité. Une langue ne se prête au traitement automatique que si elle est formalisée. De ce fait, nous avons procédé à l’analyse de plusieurs corpus bilingues français/chinois mais aussi monolingues émanant d’organismes de sécurité civile. Le but est de dégager les particularités linguistiques (lexicales, syntaxiques, …) qui caractérisent la langue de la sécurité en général et de recenser toutes les structures syntaxiques qu’utilise cette langue. Après avoir présenté la formalisation de notre système, nous montrons les processus de reconnaissance, de transfert et de génération.

  • Titre traduit

    French-Chinese machine translation system for global security


  • Résumé

    In this paper, in addition to our research results for a French-Chinese machine translation system, we present the theoretical contributions from the SyGULAC theory and from the micro-systemic theory with its calculations as well as the methodologies developed aimed at a secure and reliable application in the context of machine translation. The application covers critical safety areas such as aerospace, medicine and civil security.After presenting the state of the art in the field of machine translation in China and France, the reasons of the choice of the micro-systemic theory and SyGULAC theory are explained. Then, we explain the problems encountered during our research. The ambiguity, which is the major obstacle to the understandability and to the translatability of a text, is present at all language levels: syntactic, morphological, lexical, nominal and verbal. The identification of the units of a sentence is also a preliminary step for global understanding, whether for human beings or for a translation system. We present an inventory of the divergences between the french and the chinese language in order to achieve an machine translation system. We try to observe the verbal, nominal and vocabulary structure levels, in order to understand their interconnections and their interactions. We also define the obstacles to this research, with a theoretical point of view but also by studying our corpus.The chosen formalism starts from a thorough study of the language used in security protocols. A language is suitable for automatic processing only if this language is formalized. Therefore, An analysis of several French/Chinese bilingual corpora, but also monolingual, from civil security agencies, was conducted. The goal is to find out and present the linguistic characteristics (lexical, syntactic ...) which characterize the language of security in general, and to identify all the syntactic structures used by this language. After presenting the formalization of our system, we show the recognition, transfer and generation processes.



Le texte intégral de cette thèse sera accessible sur intranet à partir du 19-02-2022

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque universitaire électronique, Besançon.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.