Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali

par Houssein Ahmed assowe

Thèse de doctorat en Informatique

Sous la direction de Hervé Blanchon.

Thèses en préparation à Grenoble Alpes , dans le cadre de Mathématiques, Sciences et technologies de l'information, Informatique , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) .


  • Résumé

    Dans le cadre des travaux en cours pour informatiser un grand nombre de langues « peu dotées », en particulier celles de l'espace francophone, nous avons créé un système de traduction automatique français-somali dédié à un sous-langage journalistique, permettant d'obtenir des traductions de qualité, à partir d'un corpus bilingue construit par post-édition des résultats de Google Translate (GT), à destination des populations somalophones et non francophones de la Corne de l'Afrique. Pour cela, nous avons constitué le tout premier corpus parallèle français-somali de qualité, comprenant à ce jour 98 912 mots (environ 400 pages standard) et 10 669 segments. Ce dernier constitue'est un corpus aligné, et de très bonne qualité, car nous l'avons construit en post-éditant les pré-traductions de GT, qui combine pour cela avec une combinaison de lason système de TA français-anglais et système de TA anglais-somali. Il Ce corpus a également fait l'objet d'une évaluation de la part depar 9 annotateurs bilingues qui ont donné une note score de qualité à chaque segment du corpus, et corrigé éventuellement notre post-édition. À partir de ce corpus, en croissance, nous avons construit plusieurs versions successives d'un système de Traduction Automatique à base de fragments (PBMT), MosesLIG-fr-so, qui s'est révélé meilleur que GoogleTranslate GT sur ce couple de langues et ce sous-langage, en termes de mesure BLEU et du temps de post-édition. Nous avons fait également une première expérience de traduction automatique neuronale français-somali en utilisant OpenNMT, de façon à améliorer les résultats de la TA sans aboutir à des temps de calcul prohibitifs, tant durant l'entraînement que durant le décodage. D'autre part, nous avons mis en place une iMAG (passerelle interactive d'accès multilingue) qui permet à des internautes somaliens non francophones du continent d'accéder en somali à l'édition en ligne du journal « La Nation de Djibouti ». Les segments (phrases ou titres) prétraduits automatiquement par notre un système de TA fr-so en ligne disponible peuvent être post-édités et notés (sur sur une échelle de 1 à 20) par les lecteurs eux-mêmes, de façon à améliorer le système par apprentissage incrémental, de la même façon que ce qui a été fait pour le système français-chinois (PBMT) créé par [Wang, 2015].

  • Titre traduit

    Building and evaluating for MT a bilingual corpus : Application ton French-Somali


  • Résumé

    As part of ongoing work to computerize a large number of "poorly endowed" languages, especially those in the French-speaking world, we have created a French-Somali machine translation system dedicated to a journalistic sub-language, allowing to obtain quality translations from a bilingual body built by post-editing of GoogleTranslate results for the Somali and non-French speaking populations of the Horn of Africa. For this, we have created the very first quality French-Somali parallel corpus, comprising to date 98,912 words (about 400 standard pages) and 10,669 segments. The latter is an aligned corpus of very good quality, because we built in by post-editions editing pre-translations of produced by GT, which uses with a combination of the its French-English and English-Somali MT language pairs. It That corpus was also evaluated by 9 bilingual annotators who gave assigned a quality note score to each segment of the corpus and corrected our post-editing. From Using this growing body corpus as training corpusof work, we have built several successive versions of a MosesLIG-fr-so fragmented statistical Phrase-Based Automatic Machine Translation System (PBMT), which has proven to be better than GoogleTranslate on this language pair and this sub-language, in terms BLEU and of post-editing time. We also did used OpenNMT to build a first French-Somali neural automatic translationMT system and experiment it.in order to improve the results of TA without leading to prohibitive calculation times, both during training and during decoding. On the other hand, we have set up an iMAG (multilingual interactive access gateway) that allows non-French-speaking Somali surfers on the continent to access the online edition of the newspaper "La Nation de Djibouti" in Somali. The segments (sentences or titles), pre- automatically translated automatically by our any available fr-so MT system, can be post-edited and rated (out on a 1 to of 20scale) by the readers themselves, so as to improve the system by incremental learning, in the same way as the has been done before for the French-Chinese PBMT system. (PBMT) created by [Wang, 2015].