Utilisation de la similarité et de la divergence entre langues proches pour la construction automatique de ressources pour les langues peu dotées

par Sara Meftah

Projet de thèse en Informatique

Sous la direction de Nasredine Semmar et de Fatiha Sadat.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec Institut CEA LIST (laboratoire) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-02-2017 .


  • Résumé

    Cette thèse se situe dans le contexte de l'automatisation du processus de construction de lexiques et de grammaires pour des langues peu dotées en ressources linguistiques. Ces ressources sont destinées à être utilisées par des outils de traitement automatique de la langue. Les langues peu dotées peuvent être les dialectes d'une langue donnée, les langues spécifiques utilisées sur les réseaux sociaux, les langues avec des styles particuliers, etc. Ces langues partagent généralement un certain nombre de propriétés avec une langue dite « standard » dont elles sont principalement dérivées. Ces propriétés (similitudes) peuvent être d'ordre lexical comme les cognats ou grammatical comme l'ordre des mots ou la liste des étiquettes morpho-syntaxiques. Le sujet de thèse proposé a pour but d'explorer et d'expérimenter de nouvelles approches de construction de lexiques et de grammaires pour les langues peu-dotées en utilisant des algorithmes d'apprentissage non supervisé. L'idée sous-jacente à ce sujet de thèse est que la modélisation des similitudes et des écarts de la langue peu dotée par rapport à la langue standard peuvent améliorer l'extraction automatique de lexiques et de grammaires à partir de corpus. L'objectif étant de réduire les besoins en corpus parallèles et en annotation manuelle.

  • Titre traduit

    Using similarities and divergences between close languages in linguistic resources construction for resource-poor languages


  • Résumé

    This thesis falls within the scope of automating the process of building lexicons and grammars for resource-poor languages. These resources are intended to be used by natural language processing tools. Resource-poor languages could be dialects of a given language, social media specific languages or other languages with particular styles. These closely related language varieties generally share a number of properties. First, two close languages share a lot of cognates, i.e., word pairs that are formally similar and that are translations of each other. Second, the word order of both close languages is similar. Third, the set of Part-Of-Speech tags is identical in both close languages. The proposed subject aims to explore and experiment new approaches for the induction of lexicons and grammars by using unsupervised learning algorithms. The idea behind this subject is that modeling similarities and differences between close languages can improve automatic extraction of lexicons and grammars from corpora. The main purpose is to avoid the requirements of parallel data and manual annotation.