Méthodes génériques pour le développement de systèmes de traduction automatique multilingues de haute ou très haute qualité pour des sous-langages liés à des ontologies ou à des tâches finalisées.

par Guillaume De Lagane De MalÉZieux

Projet de thèse en Informatique

Sous la direction de Hervé Blanchon et de Valérie Bellynck.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de GETALP - Groupe d'Etude en Traduction/Traitement des Langues et de la Parole (ancien labo Clips) (equipe de recherche) depuis le 01-11-2018 .


  • Résumé

    Cette thèse se situe dans le domaine du Traitement Automatique des Langues Naturelles. Elle vise à pouvoir garantir l'exactitude de l'analyse syntaxique et sémantique de textes en langue naturelle (des spécifications techniques ou des textes dans des langues peu dotées) et la fidélité de leur traduction dans plusieurs autres langues. Pour y parvenir, plusieurs verrous doivent être levés. D'abord, pour maîtriser la combinatoire inhérente à la complexité des langues naturelles, le développement des analyseurs, des générateurs… doit être réalisé automatiquement à partir d'une description claire et vérifiable. Dans ce but, nous ferons évoluer les Grammaires Statiques de Correspondances Structurales (GSCS) pour les rendre à la fois plus intuitives et capables de produire des modules exécutables. Pour finir de garantir le sens, nous produirons toutes les analyses possibles et utiliserons un dialogue avec un humain pour désambiguïser entre ces différentes solutions. Par ailleurs, pour accélérer le développement des grammaires GSCS, nous appliquerons un traitement à base d'apprentissage profond sur des banques d'arbres existantes. Les probabilités obtenues sur les règles permettront d'organiser le dialogue de désambiguïsation de manière naturelle. Des algorithmes capables de mesurer la qualité des analyses et des traductions seront étudiés et évalués. Enfin, pour prendre en compte le caractère fortement multilingue du project de CS, nous choisirons une architecture à base de pivot sémantique. Les analyseurs réalisés produiront ainsi des graphes UNL, et les générations partiront de ces graphes pour générer les textes en langue cible. Des expérimentations avec d'autres enconvertisseurs et déconvertisseurs UNL (anglais, russe, hindi, espagnol…) permettront de vérifier la capacité d'interopérabilité d'UNL.

  • Titre traduit

    Generic methods for the development of multilingual Machine Translation systems of high or very high quality for sub-languages related to ontologies or finalized tasks.


  • Résumé

    This thesis falls in the field of Natural Language Processing. Its main aims is to ensure the exactness of the syntactic and semantic analysis of texts in natural language (technical specifications or texts in under-ressourced languages) and the fidelity of their translation into several other languages. To achieve this, several obstacles must be overcome. First, to master the combinatorics inherent to the complexity of natural languages, the development of analyzers, generators ... must be done automatically from a clear and verifiable description. For this purpose, we will improve the Structural Correspondence Static Grammars (GSCS) to make them both more intuitive and able to produce executable modules. Finally to guarantee the meaning, we will produce all possible analyzes and use a dialogue with a human to disambiguate between these different solutions. In addition, to accelerate the development of GSCS grammars, we will apply deep learning-based processing on existing tree banks. The probabilities obtained on the rules will make it possible to organize the dialogue of disambiguation in a natural way. Algorithms capable of measuring the quality of analyzes and translations will be studied and evaluated. Finally, to take into account the highly multilingual character of CS's project, we will choose a semantic pivot architecture. The analyzers produced will thus produce UNL graphs, and the generators will start from these graphs to generate the texts into the target languages. Experiments with other UNL enconverters and deconverters (English, Russian, Hindi, Spanish ...) will verify UNL's interoperability capability.