Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens

by Thi Minh Huyen Nguyen

Doctoral thesis in Informatique

Under the supervision of Laurent Romary.

defended on 2006

in Nancy 1 , in a partnership with Université Henri Poincaré Nancy 1. Faculté des sciences et techniques (autre partenaire) .

  • Alternative Title

    Linguistic ressources and tools for the French-Vietnamese multilingual text alignment


  • Abstract

    The work presented in this document deals with the constitution of linguistic resources and tools for the fundamental tasks of automatic processing of the Vietnamese language, both in monolingual and multilingual contexts. We present possible solutions to the problems of morpho-syntactic annotation (definition of “standardized” lexical descriptors, development of a lexicon with these descriptors, and the tools for word segmentation and part-of-speech tagging), syntactic analysis (first tentative to model the Vietnamese grammar using the TAG formalism, framework to build the language resources needed for parsing), and multilingual alignment (constitution of a multilingual corpus, development of a system for the alignment of multilingual texts). In order to ensure the reusability and extendibility of the built linguistic resources, we have paid a particular attention to the questions of standardization of language resource management.


  • Abstract

    Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux " de référence ", construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques.

Other version

This thesis has resulted in a publication by in 2006 by [CCSD] [diffusion/distribution] in Villeurbanne

Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens

Consult library

Version is available as a paper

Informations

  • Details : 1 vol. (XII-211 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 203-211

Where is this thesis?

  • Library : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Available for PEB
  • Odds : SC N2006 104
  • Library : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB tested
  • Odds : Nguyen o
See the Sudoc catalog libraries of higher education and research.