AMÉLIORER LA TRADUCTION AUTOMATIQUE NEURONALE DANS UN CONTEXTE INDUSTRIEL

par Minh quang Pham

Projet de thèse en Informatique

Sous la direction de François Yvon et de Josep Maria Crego.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-08-2018 .


  • Résumé

    Le domaine de traduction automatique s'est fortement renouvelé au cours de ces dernières années, d'abord avec le développement de modèles probabilistes capables d'apprendre automatique à traduire à partir de très grands corpus parallèles, culminant avec les modèles à base de segments (Koehn, 2010), depuis dépassés en termes de performances par les architectures neuronales (Cho et al, 2014; Bahdanau et al, 2015), qui constituent le nouvel état de l'art. La traduction automatique, qu'elle soit statistique ou neuronale, repose sur les principes fondamentaux de l'apprentissage automatique, qui visent à construire des modèles optimisés pour reproduire les exemples supposés identiquement distribués sous une distribution inconnue. Une fois entraîné, le modèle est supposé fournir des garanties de performances pour annoter automatiquement (ici, traduire) des données tirées sous une même loi. Cette situation idéale est loin de correspondre à la réalité des problèmes rencontrés en traduction automatique. Si les systèmes généralistes en libre service sur la toile reproduisent des comportements moyens sur des énoncés ou documents par nature très imprévisibles, la situation est très différente dans un cadre industriel, où les documents à traduire présentent souvent des caractéristiques précises et connues à l'avance. Il est donc essentiel pour l'amélioration des performances de prendre en compte à l'apprentissage des données représentatives du domaine d'intérêt. Dans la mesure où ces données sont en petit nombre, l'apprentissage des systèmes est le plus souvent réalisé en deux temps: (a) apprentissage d'un système généraliste incorporant le maximum de données possibles; (b) adaptation du modèle généraliste en utilisant des données du domaine concerné (fine tuning). Il existe sur cette question une vaste litérature, et de nombreuses techniques, plus ou moins justifiées, pour réaliser cette adaptation pour les modèles à base de segments (par exemple (Foster et al, 2007; Bertoldi et al., 2009; Crego et al, 2010; Axelrod et al, 2011). Pour les architectures neuronales, l'étape (b) d'adaptation au domaine prend souvent la forme d'une continuation de la procédure d'apprentissage avec de nouvelles données adaptées (Luong et al, 2015). Elle conduit à des performances bien meilleures pour la tâche concernée, mais également à une dégradation des performances pour d'autres tâches (Kirkpatrick et al, 2016). Notons que cette démarche reste très heuristique et la recherche du meilleur ratio entre les données du domaine et les données hors-domaine se limite le plus souvent à utiliser toutes les données disponibles. En contexte industriel, cette méthodologie implique de maintenir en parallèle de multiples systèmes de traduction, un par domaine, qui tous dérivent par adaptation d'un même système de base. Lorsque celui-ci évolue, il faudra alors reprendre la procédure d'adaptation pour chaque domaine d'intérêt. Au-delà de l'inefficacité computationnelle de cette démarche, on peut penser qu'elle conduit également à une utilisation sous-optimale des données d'apprentissage, qui gagneraient à être partagées le plus largement possible.

  • Titre traduit

    Improving Neural Machine Translation in an industrial context


  • Résumé

    The field of machine translation has been strongly renewed during the last few years, first with the development of probabilistic models able to learn automatic to translate to from very large parallel corpora, culminating with the models to segment basis (Koehn, 2010), since surpassed in terms of performance by neural architectures (Cho et al, 2014, Bahdanau et al, 2015), which constitute the new state art. Automatic translation, whether statistical or neuronal, is based on the fundamentals of machine learning, which aim to build optimized models to reproduce the examples assumed identically distributed under a distribution unknown. Once trained, the model is supposed to provide performance guarantees to automatically annotate (here, translate) data drawn under the same distribution. This ideal situation is far from the reality of problems encountered in machine translation. If the systems online self-service generalists reproduce average behaviors on statements or documents by nature very unpredictable, the situation is very different in a industrial sector, where the documents to be translated often precise characteristics and known in advance. It is therefore essential for performance improvement to take into account at learning the data representative of the area of ​​interest. In the extent to which these data are small, the learning of systems is most often done in two stages: (a) learning a general system incorporating as much data as possible; (b) adaptation of the generalist model using data domain concerned (fine tuning). It exists on this question a vast literature, and many techniques, more or less justified, to achieve this adaptation for the models to segment basis (eg, Foster et al., 2007; Bertoldi et al., 2009; Crego et al, 2010; Axelrod et al, 2011). For neural architectures, step (b) of adaptation to the domain often takes the form of a continuation of the learning process with new adapted data (Luong et al, 2015). It leads to good performances better for the task in question, but also to a deterioration performance for other tasks (Kirkpatrick et al, 2016). Note that this approach remains very heuristic and looking for the best ratio between data domain and out-of-domain data is usually limited to use all available data. In an industrial context, this methodology involves maintaining parallel of multiple translation systems, one per domain, which all derive by adaptation of the same basic system. When it evolves, it will then have to repeat the adaptation procedure for each domain interest. Beyond the computational inefficiency of this approach, it may be thought that it also leads to suboptimal use learning data, which should be shared as widely as possible.