Syntactic Similarity Measures in Annotated Corpora for Language Learning : application to Korean Grammar

par Ilaine Wang

Thèse de doctorat en Sciences du langage

Sous la direction de Sylvain Kahane et de Isabelle Tellier.

Soutenue le 17-10-2017

à Paris 10 , dans le cadre de École doctorale Connaissance, langage et modélisation (Nanterre) , en partenariat avec Laboratoire MoDyCo (Nanterre) (laboratoire) .

Le président du jury était Iris Eshkol-Taravella.

Le jury était composé de Sylvain Kahane, Iris Eshkol-Taravella, Benoît Crabbé, Jin-Ok Kim, Christian Surcouf.

Les rapporteurs étaient Angela Chambers, Olivier Kraif.

  • Titre traduit

    Mesures de similarité syntaxique dans des corpus annotés pour la didactique des langues : application à la grammaire du coréen


  • Résumé

    L'exploration de corpus à travers des requêtes fait aujourd'hui partie de la routine de nombreux chercheurs adoptant une approche empirique de la langue, mais aussi de non-spécialistes qui utilisent des moteurs de recherche ou des concordanciers dans le cadre de l'apprentissage d'une langue. Si les requêtes ainsi basées sur des mots-clés sont communes, les non-spécialistes semblent encore peu enclins à explorer des constructions syntaxiques. En effet, les requêtes syntaxiques requièrent souvent des connaissances spécifiques comme la maîtrise des expressions régulières, le langage de requête de l'outil utilisé, ou même simplement le jeu d'étiquettes morpho-syntaxiques du corpus étudié.Pour permettre aux apprenants de langue de se concentrer sur l'analyse des données langagières plutôt que sur la formulation de requêtes, nous proposons une méthodologie incluant un analyseur syntaxique et utilisant des mesures de similarité classiques pour comparer des séquences d'étiquettes syntaxiques ainsi obtenues de manière automatique.


  • Résumé

    Using queries to explore corpora is today part of the routine of not only researchers of various fields with an empirical approach to discourse, but also of non-specialists who use search engines or concordancers for language learning purposes. If keyword-based queries are quite common, non-specialists still seem to be less likely to explore syntactic constructions. Indeed, syntax-based queries usually require the use of regular expressions with grammatical words combined with morphosyntactic tags, which imply that users master both the query language of the tool and the tagset of the annotated corpus. However, non-specialists like language learners might want to focus on the output rather than spend time and efforts on mastering a query language.To address this shortcoming, we propose a methodology including a syntactic parser and using common similarity measures to compare sequences of morphosyntactic tags automatically provided.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Nanterre. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.