Des sytèmes de TA homogènes aux systèmes de TAO hétérogènes

par Hong-Thai Nguyen

Thèse de doctorat en Informatique

Sous la direction de Christian Boitet et de Eric Castelli.

Soutenue en 2009

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    La thèse porte sur les problèmes posés par la conception et la réalisation de la partie logicielle des systèmes de traduction automatisée (TAO) hétérogènes, intégrant des systèmes de TA multiples et/ou à composants hétérogènes, ainsi qu'une partie THAM (traduction humaine aidée par la machine), reposant sur des mémoires de traductions. Ces systèmes se développent à côté des systèmes de TA homogènes et de THAM, et les supplanteront peut-être à moyen terme. Leurs différents composants de TA seront construits par des équipes différentes, distribuées autour de la planète, avec des méthodes algorithmiques et des outils différents (langages spécialisés ou LSPL), ainsi que des ressources et composants linguiciels différents (dictionnaires et corpus de divers types, grammaires et transducteurs basés sur des règles), à l'aide d'EDL (environnements de développement linguiciel) eux aussi différents. Les contributions de la thèse concernent en particulier : • l'amélioration des « méta-EDL de TAO », permettant d'effectuer une transition incrémentale entre les EDL natifs des systèmes de TA utilisés pour construire un systèmes de TAO à composants hétérogènes, et un futur EDL intégrateur universel, dans lequel on pourra « rapatrier » la compilation et l'exécution des LSPL ; • la conception et la réalisation d'une base lexicale partageant un même pivot lexical, PIVAX, réalisée au-dessus de la plate-forme Jibiki (G. Sérasset, GETALP) ; • la réingénierie de langages spécialisés « externes » (non supportés par l'EDL Ariane-G5), avec application aux « systèmes-Q » (A. Colmerauer, 1967), qui servit de base pendant 15 ans au système de TA TAUM-météo destiné aux bulletins météorologiques canadiens ; • la conception et la réalisation d'un « moniteur » adapté à la partie « production » d'un système de TAO hétérogène, EMEU_w. 1. 0, qui a été développé et utilisé dans le cadre d'un projet de grande ampleur.


  • Résumé

    The thesis deals with problems posed by the design and implementation of the software part of CAT (Computer Automated Translation) systems, integrating multiple MT (Machine Translation) systems and/or MT systems with heterogeneous components, as well as a MAHT (Machine Aided Human Translation) part, based on translation memories. These systems are emerging beside homogeneous MT systems and MAHT system, and may replace them in the middle term. Their various MT components will be built by different teams, distributed around the world, using different algorithmic methods and different tools (Specialized Languages or SLLP), as well as different lingware resources and components (corpora and dictionaries of various types, rule-based grammars and transducers), and developing under different lingware development environments (EDL). The contributions of the thesis concern especially: • the improvement of the "meta-EDL for CAT systems", allowing to carry out an incremental transition between the native EDLs of the MT systems used for building a heterogeneous MT system, and a future "universal integrating EDL", in which it will be possible to reengineer the compilers and engines (interpreters) of the SLLPs from various systems; • the design and the implementation of PIVAX, a contributive lexical database for heterogeneous CAT systems sharing the same "lexical pivot", built over the Jibiki platform (G. Sérasset, GETALP); • the reengineering of "external" specialized languages (not supported by the EDL of Ariane-G5), with an application to the "Q-Systems" (A. Colmerauer, 1967) that was for 15 years the basis of the TAUM-meteo MT system used to translate the Canadian weather bulletins ; • the design and the implementation of EMEU_w. 1. 0, a "monitor" handling the "production" part of a heterogeneous CAT system, that has been used in the framework of a large-scale project.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (244 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 243 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS09/GRE1/0314/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS09/GRE1/0314
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-769
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.