Le dictionnaire électronique des séquences nominales figées en coréen et de leurs formes réfléchies : méthodes et applications

par Sun-Mee Bae

Thèse de doctorat en Informatique fondamentale

Sous la direction de Eric Laporte.

Soutenue en 2002

à Marne-la-Vallée .


  • Résumé

    Ce travail vise à présenter des méthodes de construction des dictionnaires électroniques de séquences nominales figées du coréen et de leurs formes fléchies, et à justifier leur validité en appliquant notre dictionnaire dans les domaines appliqués de l'analyse automatique de textes coréens. En vue de la reconnaissance des séquences nominales figées par dictionnaire, nous avons classé celles-ci en trois catégories selon les conventions typographiques : noms compacts (NC), noms figés à espacement facultatif (NFF) et noms figés à espacement obligatoire (NFO). Puisque des formes fléchies des séquences nominales figées apparaissent dans les textes coréens, nous avons construit, d'une part, un dictionnaire électronique des NFF à 45000 entrées et d'autre part, un transducteur des séquences de postpositions nominales avec leur segmentation, et enfin fusionné ces deux ensembles de données à partir de codes flexionnels associés à chaque entrée et de la fonctionnalité de flexion d'INTEX. Notre dictionnaire construit d'après ces méthodes a les principaux avantages suivants par rapport aux systèmes préexistants : 1) Le dictionnaire des formes fléchies de NFF permet la reconnaissance automatique de toutes les variantes de NFF liées à l'espacement 2) Le dictionnaire des formes fléchies de NFF permet la segmentation des formes fléchies des NFF en un NFF et une séquence de postpositions nominales 3) Le dictionnaire des séquences de postpositions nominales sous forme de graphes permet leur segmentation en postpositions nominales 4) Le dictionnaire des NFF sert à la segmentation des séquences nominales libres soudées 5) Le dictionnaire des NFF peut être étendu en un dictionnaire bilingue pour la traduction automatique 6) Chaque entrée du dictionnaire de NFF comporte des codes utiles pour les applications dans le traitement automatique : codes indiquant un trait sémantique, le statut de nom prédicatif, le nom tête de chaque entrée, l'origine et la catégorie grammaticale

  • Titre traduit

    Electronic dictionaries of frozen nominal sequences and of their inflected forms in Korean : methods and applications


  • Résumé

    This work aims at presenting methods of construction of electronic dictionaries of frozen nominal sequences in Korean and their inflected forms, and at justifying their validity by applying our dictionary in applied fields of automatic analysis of Korean texts. For lexicon-based recognition of frozen nominal sequences, we classified them in three categories according to typographical conventions: compact nouns (CN), frozen nouns with optional spacing (FNO) and frozen nouns with obligatory spacing (FNS). Since inflected forms of frozen nominal sequences appear in Korean texts, we built (i) an electronic dictionary of FNO with 45000 entries and (ii) a transducer of sequences of nominal postpositions with their segmentation, and finally these two data sets were merged into a single dictionary through the aid of inflectional codes attached to each frozen nominal sequence and of the inflection module in INTEX. Our dictionary built according to these methods has the principal following advantages compared to the preexistent systems : 1) The dictionary of inflected forms of FNO allows automatic recognition of all the alternatives of FNO related to spacing 2) The dictionary of inflected forms of FNO allows segmentation of inflected forms of FNO into a FNO and a sequence of nominal postpositions without error 3) The dictionary of sequences of nominal postpositions represented by graphs allows their segmentation in nominal postpositions without error 4) The dictionary of FNO is used for segmentation of the free nominal sequences written without delimiters 5) The dictionary of FNO can be extended into a bilingual dictionary for machine translation 6) Each entry of the dictionary of FNO comprises useful codes for the natural language processing applications: codes indicating semantic features, status of predicative noun, head noun of each entry, origin and grammatical category

Autre version

Cette thèse a donné lieu à une publication en 2011 par [CCSD] [diffusion/distribution] à Villeurbanne

Le dictionnaire électronique des séquences nominales figées en coréen et de leurs formes réfléchies : méthodes et applications

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (VII-196 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 175-182 (106 réf.). Notes bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2002 BAE 0139
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-670
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.