Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques

par Hyun Gue Huh

Thèse de doctorat en Informatique linguistique

Sous la direction de Eric Laporte.

Soutenue en 2005

à l'Université de Marne-la-Vallée .


  • Résumé

    Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent principalement avec l'alphabet Hangul qui est un ensemble de caractères syllabiques. Il est possible de les mélanger avec des idéogrammes et des caractères de l'alphabet latin. Nous utilisons le système de codage de caractères UNICODE dans lequel les syllabes coréennes sont rangées par ordre alphabétique. Pour certains traitements sur les syllabes coréennes, nous décomposons chaque syllabe en plusieurs caractères alphabétiques coréens. Les mots coréens reçoivent des affixes. Pour le nom, un mot peut avoir plusieurs suffixes sans compter les suffixes dérivés, le nombre maximal de combinaisons étant d'environ 1600. Notre première étape pour l'analyse des textes coréens est la description des morphèmes d'un mot pour le segmenter à l'aide des séparateurs : blanc et symboles. Et on segmente encore les segments en morphèmes. Pour pouvoir analyser les segments, nous construisons des dictionnaires de racines et de séquences de suffixes. Nous utilisons les transducteurs pour représenter les compatibilités entre des morphèmes : racines et suffixes avec l'interface graphique de UNITEX. Ils sont conçus de manière à être construits et maintenus manuellement. Notre méthode est fondée sur des ressources linguistiques alors que la plupart des systèmes d'analyse morphologique sont fondés sur des données statistiques. Nous intégrons automatiquement les dictionnaires de racine et les transducteurs des suffixes en un transducteur unique, qui remplit la fonction d'un dictionnaire. Le résultat de l'analyse d'un texte se présente sous la forme d'un automate pour rendre compte de l'ambiguïté du découpage en morphèmes. Les transitions sont étiquetées par des morphèmes annotés d'informations linguistiques (forme canonique, forme fléchie et informations linguistiques)

  • Titre traduit

    Resource-based delimitation and annotation of Korean morphemes


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (VIII-167-20 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 163-167 (51 réf.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2005 HUH 0238
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.