Unsupervised word segmentation and wordhoob assessment : the case for mandarin chinese

par Pierre Magistry

Thèse de doctorat en Linguistique [Théorique, Descriptive et Automatique]

Sous la direction de Sylvain Kahane et de Benoît Sagot.

Soutenue en 2013

à Paris 7 .

  • Titre traduit

    Segmentation en mots non-supervisée et estimation de la lexicalité : le cas du mandarin


  • Résumé

    This dissertation addresses the question of wordhood and unsupervised word identification in written corpora, with a focus on Modern Standard Chinese (MSC). The first part discusses the linguistic aspects of the question. It reviews previous works related to the notion of "word" in MSC and Chinese script and relates it to general linguistics issues, especially that of Multi-Words Expressions. H then sketches the development of Chinese Word Segmentation in NLP and traditional evaluation procedures. We argue that a part of arbitrariness in the corpora annotation biases the evaluations in favor of supervised machine learning methods which are less relevant for linguistic studies compared to unsupervised ones. This first part advocates for a corpus-based definition of the minimal units based on a measure of the combinatoric autonomy of a form and its degree of membership in a distributional class. The second part presents a new unsupervised learning method to estimate this autonomy inspired by Harris theories. With a simple and fast segmentation algorithm solely based on this measure, we already achieve near state-of-the-art performances on the task of Unsupervised Chinese Word Segmentation. We discuss the importance of pre-processing and report experiments on the use of the Minimum Description Length (MDL) paradigm in unsupervised segmentation. Finally, we provide a refined methodology and tools for a qualitative evaluation of our output and results on languages others that MSC.


  • Résumé

    Ce mémoire traite de la segmentation non-supervisée en mots et de l'évaluation de la «lexicalité» des formes. Le chinois moderne standard (mandarin) est choisi pour les expériences et évaluations. La première partie porte sur les aspects linguistiques. Elle présente les critères couramment utilisés pour définir le «mot» en linguistique chinoise et en montre les limites au travers d'une discussion de linguistique générale, abordant notammen la question des «expressions multi-mots». Nous présentons ensuite l'historique du développement de la Segmentation en Mot du Chinois comme une tâche typique en TAL, et défendons l'idée qu'une part d'arbitraire dans l'annotation des corpus d'évaluation favorise artificiellement les systèmes d'apprentissage supervisés alors que nous considérons les systèmes non-supervisés d'un plus grand intérêt pour la linguistique. La première partie nous amène à fonder notre définition de la lexicalité sur deux critères: une forte autonomie de combinaison et un haut degré d'appartenance à une classe distributionnelle. La seconde partie Présente une méthode non-supervisée pour évaluer l'autonomie des formes inspirée par les hypothèses de Harris. Avec un algorithme de segmentation simple et rapide basé uniquement sur cette mesure, nous obtenons des résultats proches de l'état de l'art. Nous discutons ensuite de l'importance des pré-traitements et présentons des expériences utilisant la MDL. Enfin, nous proposons une méthode et des outils pour une évaluation plus qualitative des analyses fournies par notre systèmes. Nous présentons aussi quelques résultats préliminaires sur d'autres langues.

Autre version

Cette thèse a donné lieu à une publication en 2017 par [CCSD] [diffusion/distribution] à Villeurbanne

Unsupervised word segmentation and wordhoob assessment : the case for mandarin chinese : le cas du mandarin

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (11-III-189 p.)
  • Annexes : 118 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • PEB soumis à condition
  • Cote : TL (2013) 077

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.