Extraction interactive et non supervisée de lexique en chinois contemporain appliquée à la constitution de ressources linguistiques dans un domaine spécialisé

par Gaël Patin

Thèse de doctorat en Traitement automatique des langues

Sous la direction de Pierre Zweigenbaum.

Soutenue en 2013

à Paris, INALCO .


  • Résumé

    Cette thèse traite de l’extraction d’unités lexicales en chinois contemporain à partir d’un corpus de textes de spécialité. Elle aborde la tâche d’extraction de lexique en chinois en utilisant des techniques se basant sur des caractéristiques linguistiques de la langue chinoise. La thèse traite également de la manière d’évaluer l’extraction de lexique dans un environnement industriel. La première partie de la thèse est consacrée à la description du contexte de l’étude. Nous nous attachons dans un premier à temps à décrire les concepts linguistiques d’unité lexicale et de lexique, et nous donnons une description du processus de construction des unités lexicales en chinois contemporain. Nous faisons ensuite un inventaire des différentes techniques utilisées par la communauté scientifique pour traiter la tâche de l’extraction de lexique en chinois contemporain. Nous concluons cette partie par une description des pratiques d’extraction de lexique en milieu industriel, et nous proposons une formalisation des critères utilisés par les terminographes d’entreprise pour sélectionner les unités lexicales pertinentes. La deuxième partie du mémoire porte sur la description d’une méthode d’extraction de lexique en chinois contemporain et sur son évaluation. Nous introduisons une nouvelle méthode numérique non supervisée s’appuyant sur des caractéristiques structurelles de l’unité lexicale en chinois et sur des particularités syntaxiques du chinois. La méthode comporte un module optionnel permettant une interaction avec un opérateur (i. E. Semi-automatique). Dans la section consacrée à l’évaluation, nous évaluons d’abord le potentiel de la méthode en comparant les résultats de l’extraction avec un standard de référence et une méthode de référence. Nous mettons ensuite en oeuvre une évaluation plus pragmatique de la méthode en mesurant les gains apportés par l’usage de la méthode en comparaison avec l’extraction manuelle de lexique par des terminographes. Les résultats obtenus par notre méthode sont de bonne qualité et sont meilleurs que ceux produits par la méthode de référence sur le standard de référence. Ces résultats sont encourageants, mais ils doivent être confirmés par une évaluation plus complète. L’évaluation pragmatique montre que la méthode n’améliore pas significativement la productivité des terminographes, mais permet d’extraire des unités lexicales différentes de celles obtenue manuellement.

  • Titre traduit

    Interactive and unsupervised chinese lexicon extraction for linguistic ressources extraction on a domain-specific corpus


  • Résumé

    This thesis deals with lexical unit extraction in contemporary Chinese from a corpus of specialized texts. It addresses the task of Chinese lexicon extraction using techniques based on linguistic characteristics of the Chinese language. The thesis also discusses how to evaluate the extraction of a lexicon in an industrial environment. The first part of the thesis describes the context of the study. We focus on describing the linguistic concepts of vocabulary and lexical units, and we also give a description of the construction of lexical units in contemporary Chinese. We then make a inventory of the different techniques used by the scientific community to address the task of extracting a contemporary Chinese lexicon. We conclude this section by describing lexicon extraction practices in industry, and we propose a formalization of the criteria used by terminologists to select the relevant lexical units. The second part of this thesis deals with the description of a method for extracting Chinese contemporary lexicon and its evaluation. We introduce a new numerical unsupervised method based on structural features of the lexical unit in Chinese and syntactic features of Chinese. The method includes an optional module to interact with a user (i. E. Semi-automatic). In the section related to the evaluation, we first evaluate the potential of the method by comparing extraction results to a reference standard and a reference method. We then implement a more pragmatic evaluation of the method by measuring the gains using this method as opposed to manual lexicon extraction by terminologists. The results obtained by our method are better than those produced by the reference method on the reference standard. These results are encouraging, but need to be confirmed by a more comprehensive study. The pragmatic evaluation shows that the method does not significantly improve the productivity of terminologists but can extract different lexical units than those obtained manually.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (163 p.)
  • Annexes : Bibliogr. p. [153]-161. Index

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.