Étude des problèmes spécifiques de l'intégration du chinois dans un système de traitement automatique pour les langues européennes

par Yiping Li

Thèse de doctorat en Information scientifique et technique

Sous la direction de Christian Fluhr.


  • Résumé

    L’analyse linguistique est une étape fondamentale et essentielle pour le traitement automatique des langues. En effet, elle permet d’étiqueter les mots avec des catégories morphosyntaxiques et d’identifier des entités nommées pour pouvoir réaliser des applications du plus haut niveau, par exemple la recherche d’information, la traduction automatique, la question réponse, etc. L’analyse linguistique du chinois remplit les mêmes missions que celle des autres langues. Mais elle présente une difficulté supplémentaire liée au fait de ne pas avoir de délimiteurs entre les mots. Puisque le mot est l’unité essentielle d’une langue, une segmentation des phrases en mots est indispensable pour le traitement du chinois. Parmi des études existantes, la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées sont souvent enchaînés comme les étapes différentes. La segmentation se sert de la base pour les deux autres. Ce type d’approches subit malheureusement un blocage au niveau de la segmentation : c’est-à-dire que certaines erreurs de segmentation sont inévitables. C’est pourquoi des modèles statistiques qui réalisent la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées ou la segmentation et l’un des deux autres traitements simultanément, ont été créés. Cette combinaison permet d’utiliser des informations supplémentaires apportées par l’étiquettes morphosyntaxiques et l’identification des entités nommées afin d’aider la segmentation. Cependant un modèle unique n’est pas modulaire. Donc il est difficile d’adapter le même modèle aux autres langues, à cause des caractéristiques particulières de chaque langue. Par conséquent, cette approche n’est pas approprie pour créer des systèmes d’analyse automatique multilingue. L’objectif de mon étude consiste à intégrer l’analyse automatique du chinois dans un système d’analyse multilingue LIMA. Par rapport à un système de traitement d’information monolingue du chinois, certaines contraintes sont imposées. D’abord, des traitements pour le chinois doivent être compatibles avec ceux d’autres langues. Ensuite, pour garder la cohérence et l’unité du système, il est favorable d’employer au maximum des modules de traitement en commun pour toutes les langues traitées par le système. En conséquence, le choix s’est porté sur l’utilisation des modules séparés pour la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées. Le fait de concevoir des traitements modulaires rend des modules de traitements spécifiques au chinois réutilisables pour d’autres langues ayant des traits linguistiques similaire et il facilite également des réactions entre les traitements. Néanmoins, ce type de méthodes enchaînant des trois traitements ne prend pas en compte des dépendances entre eux. Pour surmonter ce défaut, nous utilisons les informations fournies par l’analyse morphosyntaxique, par l’identification des entités nommées et par des connaissances linguistiques afin d’améliorer la segmentation. Une analyse des origines d’erreurs produites par des traitements enchaînés nous a inspiré une étude de l’interdépendance entre les trois traitements. Etant donné ces interdépendances, trois traitements spécifiques sont rajoutés au système : un prétraitement avant la segmentation basée sur le modèle de cooccurrence, une tokenization de termes liés aux chiffres écrits en caractères chinois et un traitement complémentaire pour la segmentation en identifiant certaines entités nommées entre l’étape de la segmentation et celle de l’étiquetage morphosyntaxique. Ces traitements rajoutés apportent des améliorations importantes à notre système

  • Titre traduit

    Study of special problems on integration of Chinese in a European natural language processing system


  • Résumé

    Linguistic analysis is a fundamental and essential step for natural language processing. It often includes part-of-speech tagging and named entity identification in order to realize higher level applications, such as information retrieval, automatic translation, question answers, etc. Chinese linguistic analysis must perform the same tasks as that of other languages, but it must resolve a supplemental difficulty caused by the lack of delimiter between words. Since the word is the elementary unit for automated language processing, it is indispensable to segment sentences into words for Chinese language processing. In most existing system described in the literature, segmentation, part-of-speech tagging and named entity recognition are often presented as three sequential, independent steps. But since segmentation provides the basis for and impacts the other two steps, some statistical methods which collapse all three treatments or two of the three into one module have been proposed. With these combinations of steps, segmentation can be improved by complementary information supplied by part-of-speech tagging and named entity recognition, and global analysis of Chinese improved. However this unique treatment model is not modular and difficult to adapt to different languages other than Chinese. Consequently, this approach is not suitable for creating multilingual automatic analysis systems. This dissertation studies the integration Chinese automatic analysis into an existing multilingual analysis system LIMA. Originally built for European languages, LIMA’s modular approach imposes some constraints that a monolingual Chinese analysis system need not consider. Firstly, the treatment for Chinese should be compatible and follow the same flow as other languages. And secondly, in order to keep the system coherent, it is preferable to employ common modules for all the languages treated by the system, including a new language like Chinese. To respect these constraints, we chose to realize the phases of segmentation, part-of-speech tagging and named entity recognition separately. Our modular treatment includes a specific module for Chinese analysis that should be reusable for other languages with similar linguistic features. After error analysis of this purely modular approach, we were able to improve our segmentation with enriched information supplied by part-ofspeech tagging, named entity recognition and some linguistic knowledge. In our final results, three specific treatments have been added into the LIMA system: a pretreatment based on a co-occurrence model applied before segmentation, a term tokenization relative to numbers written in Chinese characters, and a complementary treatment after segmentation that identifies certain named entities before subsequent part-of-speech tagging. We evaluate and discuss the improvement that these additional treatments bring to our analysis, while retaining the modular and linear approach of the underlying LIMA natural language processing system

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (160 p.)
  • Annexes : Notes bibliogr. Bibliogr. p. 135-144 (144 réf.). Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Gustave Eiffel. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2006 LI 0282
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.