Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens

par Thi Minh Huyen Nguyen

Thèse de doctorat en Informatique

Sous la direction de Laurent Romary.


  • Résumé

    Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux " de référence ", construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques.

  • Titre traduit

    Linguistic ressources and tools for the French-Vietnamese multilingual text alignment


  • Résumé

    The work presented in this document deals with the constitution of linguistic resources and tools for the fundamental tasks of automatic processing of the Vietnamese language, both in monolingual and multilingual contexts. We present possible solutions to the problems of morpho-syntactic annotation (definition of “standardized” lexical descriptors, development of a lexicon with these descriptors, and the tools for word segmentation and part-of-speech tagging), syntactic analysis (first tentative to model the Vietnamese grammar using the TAG formalism, framework to build the language resources needed for parsing), and multilingual alignment (constitution of a multilingual corpus, development of a system for the alignment of multilingual texts). In order to ensure the reusability and extendibility of the built linguistic resources, we have paid a particular attention to the questions of standardization of language resource management.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xii-211 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 203-211

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Disponible pour le PEB
  • Cote : SC N2006 104
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : Nguyen o
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.