Thèse soutenue

Un module NooJ pour le traitement automatique du chinois : formalisation du vocabulaire et des têtes de groupes nominaux

FR  |  
EN
Auteur / Autrice : Huei-Chi Lin
Direction : Max SilberzteinZhitang Yang-Drocourt
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance en 2010
Etablissement(s) : Besançon
Partenaire(s) de recherche : Autre partenaire : Université de Franche-Comté. UFR des Sciences du langage, de l'homme et de la société

Résumé

FR  |  
EN

Cette étude présente le développement du module d’analyse automatique du chinois qui permet de reconnaître dans les textes les unités lexicales en chinois moderne puis les groupes nominaux noyaux. Pour atteindre ces deux objectifs principaux, nous devions résoudre les problèmes suivants : 1) identifier les unités lexicales en chinois moderne ; 2) déterminer leurs catégories ; 3) décrire la structure de syntaxe locale et des groupes nominaux noyaux. C’est ainsi que nous avons été amenée à constituer d’abord un corpus regroupant des textes littéraires et journalistiques publiés au XXe siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu recueillir des informations linguistiques telles qu’unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant. Grâce à cette liste, l’analyseur lexical peut traiter des unités lexicales de différents types, en bloc, sans les découper en composants. Ainsi, on traite les unités lexicales suivantes comme des unités atomiques : 理髮lǐfǎ <arranger-cheveux> ‘faire la coiffure’. 放假fàngjià <distribuer-vacance> ‘être en vacances’. 刀子口dāozikǒu <couteau-bouche> ‘parole cruelle’. 研究員yánjiū / jiù yuán <effectuer des recherches-K> ‘chercheur’. 翻譯系統fānyì xìtǒng <traduire-système> ‘système de traduction’. 浪漫主義làngmàn zhŭyì <romantique- -isme> ‘romantisme’. Puis, nous avons décrit de manière formelle un certain nombre de syntagmes locaux, ainsi que cinq types de groupes nominaux noyaux. Enfin, nous avons utilisé le module chinois ainsi développé pour étudier l’évolution thématique dans les textes littéraires