Implantation de dictionnaires électroniques du coréen par automates finis

par Sung-Woo Choi

Thèse de doctorat en Informatique fondamentale

Sous la direction de Dominique Perrin.

Soutenue en 1999

à l'Université de Marne-la-Vallée .


  • Résumé

    Ce travail porte sur le traitement automatique d'un lexique du coreen. Comme le coreen est une langue agglutinante, les informations phonematiques sont essentielles pour le traitement des formes flechies en coreen. Le systeme de codage ksc5601-1987 hangul wansung n'en fournit pas en raison de sa structure meme. Ainsi, le systeme hangul code manager (hancom) a ete developpe pour pallier ce manque. Ce systeme permet egalement les conversions entre les differents systemes de codes. Les informations statistiques sont utiles tant pour analyser des textes que pour le traitement des langues naturelles. Nous avons etudie le nombre d'occurrences des syllabes et des mots. Les entropies des monogramme et des digramme des mots et des syllabes ont ete estimees en utilisant un modele de contexte-fini. La loi de zipf est etudiee ici. Pour tester son application sur le coreen, on a propose deux modeles, modele modifie de distribution de mandelbrot et modele des trois parties. Les textes coreens se conforment a une variante de la loi de zipf, a quelques differences pres. Nous avons egalement verifie que les types de la distribution de frequence sont independantes de la nature et de la taille du corpus et ne dependent que de la langue elle-meme. Les dictionnaires electroniques du coreen sont representes par automate acyclique minimal. Une methode utilisant la table des transitions inverses a ete introduite pour la minimisation. Deux nouveaux dictionnaires deco-ra et deco-flexav ont ete elabores pour engendrer comme entrees des formes flechies coreennes decof (plus de 148 millions entrees). Pour construire des automates pour les entrees du decof, nous avons invente une methode faisant appel a deux automates et a une matrice de cartographie pour la combinaison. Dans le cas du decof, la reduction d'espace dans la memoire utilisee constitue une caracteristique tres importante

  • Titre traduit

    Implementation of the Korean electronic dictionary with finite-state automata


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IV-133 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 113-116 (45 réf.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 1999 CHO 0056
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.