Thèse de doctorat en Traitement automatique des langues
Sous la direction de Patrice Pognan.
Soutenue en 2003
à Paris, INALCO .
La présente thèse propose une analyse morphologique automatique des séquences de kanji dans des textes japonais, généraux ou spécialisés. Cette analyse s'appuie sur les particularités graphémiques, morphologiques et syntaxiques du japonais. Elle n'emploie aucun dictionnaire, est basée sur la reconnaissance des contextes immédiats des séquences de kanji et produit un étiquetage des unités linguistiques reconnues et une segmentation du texte. La première partie décrit le système d'écriture japonais et son codage informatique. La deuxième partie décrit les parties du discours japonais, en particulier les verbes, qualificatifs, particules et suffixes flexionnels, leurs caractéristiques morphosyntaxiques étant essentielles pour l'analyse morphologique. La troisième partie décrit le module d'analyse: identification et formalisation des données pour l'analyse, algorithme de l'analyse et des pré-traitements, formalisation de modèles d'objets pour la manipulation informatique du japonais.
Automatic segmentation and morphological analysis of Japanese
The present thesis proposes an automatic morphological analysis of the kanji sequences in Japanese texts. This analysis is based on the graphemic, morphological and syntactic characteristics of the Japanese language. It does not employ any dictionary and is based on the recognition of the immediate contexts of the kanji sequences. It leads to a tagging of the recognized linguistic units and to a segmentation of the text. The first part of the thesis describes the Japanese writing system and its encoding methods. The second part deals with the Japanese parts of speech, in particular verbs, adjectives, particles and flexional suffixes which morphosyntaxic characteristics are essential for the morphological analysis. The third part describes the module of analysis: identification and formalization of the data necessary to the analysis, algorithm of the analysis and the related treatments, formalization of models of objects necessary to the data-processing handling of Japanese.