La traduction automatique statistique factorisée : une application à la paire de langues français - roumain

par Elena-Mirabela Laporte (Navlea)

Thèse de doctorat en Sciences du langage

Sous la direction de Thierry Grass et de Amalia Todiraşcu-Courtier.

Soutenue le 13-06-2014

à Strasbourg , dans le cadre de École doctorale Humanités (Strasbourg ; 2009-....) , en partenariat avec Linguistique, langues, parole (Strasbourg) (laboratoire) .

Le président du jury était Francis Grossmann.

Les rapporteurs étaient Ulrich Heid, Dan Tufiş.


  • Résumé

    Un premier objectif de cette thèse est la constitution de ressources linguistiques pour un système de traduction automatique statistique factorisée français - roumain. Un deuxième objectif est l’étude de l’impact des informations linguistiques exploitées dans le processus d’alignement lexical et de traduction. Cette étude est motivée, d’une part, par le manque de systèmes de traduction automatique pour la paire de langues étudiées et, d’autre part, par le nombre important d’erreurs générées par les systèmes de traduction automatique actuels. Les ressources linguistiques requises par ce système sont des corpus parallèles alignés au niveau propositionnel et lexical. Ces corpus sont également segmentés lexicalement, lemmatisés et étiquetés au niveau morphosyntaxique.

  • Titre traduit

    Factored phrase based statistical machine translation : a French - Romanian application


  • Résumé

    Our first aim is to build linguistic resources for a French - Romanian factored phrase - based statistical machine translation system. Our second aim is to study the impact of exploited linguistic information in the lexical alignment and translation process. On the one hand, this study is motivated by the lack of such systems for the studied languages. On the other hand, it is motivated by the high number of errors provided by the current machine translation systems. The linguistic resources required by the system are tokenized, lemmatized, tagged, word, and sentence - aligned parallel corpora.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Strasbourg. Bibliothèque électronique du Services des bibliothèques 063.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.