Thèse soutenue

Extraction interactive et non supervisée de lexique en chinois contemporain appliquée à la constitution de ressources linguistiques dans un domaine spécialisé

FR  |  
EN
Auteur / Autrice : Gaël Patin
Direction : Pierre Zweigenbaum
Type : Thèse de doctorat
Discipline(s) : Traitement automatique des langues
Date : Soutenance en 2013
Etablissement(s) : Paris, INALCO

Mots clés

FR

Résumé

FR  |  
EN

Cette thèse traite de l’extraction d’unités lexicales en chinois contemporain à partir d’un corpus de textes de spécialité. Elle aborde la tâche d’extraction de lexique en chinois en utilisant des techniques se basant sur des caractéristiques linguistiques de la langue chinoise. La thèse traite également de la manière d’évaluer l’extraction de lexique dans un environnement industriel. La première partie de la thèse est consacrée à la description du contexte de l’étude. Nous nous attachons dans un premier à temps à décrire les concepts linguistiques d’unité lexicale et de lexique, et nous donnons une description du processus de construction des unités lexicales en chinois contemporain. Nous faisons ensuite un inventaire des différentes techniques utilisées par la communauté scientifique pour traiter la tâche de l’extraction de lexique en chinois contemporain. Nous concluons cette partie par une description des pratiques d’extraction de lexique en milieu industriel, et nous proposons une formalisation des critères utilisés par les terminographes d’entreprise pour sélectionner les unités lexicales pertinentes. La deuxième partie du mémoire porte sur la description d’une méthode d’extraction de lexique en chinois contemporain et sur son évaluation. Nous introduisons une nouvelle méthode numérique non supervisée s’appuyant sur des caractéristiques structurelles de l’unité lexicale en chinois et sur des particularités syntaxiques du chinois. La méthode comporte un module optionnel permettant une interaction avec un opérateur (i. E. Semi-automatique). Dans la section consacrée à l’évaluation, nous évaluons d’abord le potentiel de la méthode en comparant les résultats de l’extraction avec un standard de référence et une méthode de référence. Nous mettons ensuite en oeuvre une évaluation plus pragmatique de la méthode en mesurant les gains apportés par l’usage de la méthode en comparaison avec l’extraction manuelle de lexique par des terminographes. Les résultats obtenus par notre méthode sont de bonne qualité et sont meilleurs que ceux produits par la méthode de référence sur le standard de référence. Ces résultats sont encourageants, mais ils doivent être confirmés par une évaluation plus complète. L’évaluation pragmatique montre que la méthode n’améliore pas significativement la productivité des terminographes, mais permet d’extraire des unités lexicales différentes de celles obtenue manuellement.