Reference in interlanguage : the case of this and that : From linguistic annotation to corpus interoperability

par Thomas Gaillat

Thèse de doctorat en Linguistique anglaise

Sous la direction de Nicolas Ballier et de Pascale Sébillot.

Le président du jury était John Osborne.

Le jury était composé de John Osborne, Ana Díaz-Negrillo.

Les rapporteurs étaient Walt Detmar Meurers.

  • Titre traduit

    La référence dans l'interlangue : le cas de this et that : De l'annotation linguistique à l'interopérabilité des corpus


  • Résumé

    Cette thèse s'attache à décrire les constructions inattendues en THIS et en THAT des apprenants francophones et hispanophones de l'anglais. Le chapitre 1 pose la problématique de l'étude des marqueurs THIS et THAT au sein des deux microsystèmes des déictiques et des proformes. Le chapitre 2 présente les différentes analyses de la référence de THIS et de THAT en anglais natif, dans les différents cadres théoriques (Cornish, Cotte, Halliday & Hasan, Kleiber, Fraser & Joly, Lapaire & Rotgé) et croise les problématiques de représentations (anaphore/deixis ; endophoricité/exophoricité) avec l'analyse des réalisations fonctionnelles. Le chapitre 3 dresse un état des lieux rapide de l'analyse de l'interlangue et montre la nécessité d'une approche dynamique des systèmes fondée sur la nécessité de la distinction fonctionnelle. Le chapitre 4 détaille les jeux d'étiquettes existants dans les corpus de l'anglais (Penn Treebank, Claws7, ICE-GB) et montre la nécessité d'une ré-annotation plus fine fondée sur des étiquettes fonctionnelles et d'une sémantique des positions (sujets vs. Oblique). Le chapitre 5 décrit l'architecture de l'annotation multi-niveaux mise en oeuvre pour l'analyse de corpus différents, les méthodes de ré-annotation automatique des catégories fonctionnelles (ainsi que leur évaluation) et expose les choix retenus pour l'interopérabilité de ces corpus. Le chapitre 6 propose une analyse statistique fondée sur des modèles de régression qui mettent au jour les tendances des variables opérationnalisées dans l'analyse (la L1, le mode écrit ou oral du corpus, le type de référence). Le chapitre 7 examine, à partir du recours aux classifieurs, le rôle respectif des propriétés linguistiques codées dans l'analyse et simule un système d'analyse automatique des erreurs. Le chapitre 8 tire les conséquences pour l'analyse linguistique des méthodologies mobilisées dans la thèse.


  • Résumé

    This thesis describes unexpected constructions based on THIS and THAT by French and Spanish learners of English. Chapter 1 raises the issue of the study of THIS and THAT as markers in the two microsystems of pro-forms and deictics. Chapter 2 covers different types of analyses of reference with THIS and THAT in native English and refers to different theoretical frameworks (Cornish, Cotte, Halliday & Hasan, Kleiber, Fraser & Joly, Lapaire & Rotgé). It cross-references representations (anaphora/deixis; endophoricity/exophoricity) with an analysis of functional realisations. Chapter 3 broaches the issue of interlanguage analysis, and it shows that a dynamic systemic approach grounded in the functional distinction of the forms is necessary. Chapter 4 gives details about existing annotation tagsets for English corpora (Penn Treebank, Claws7, ICE-GB). It shows the need for a finer-grained annotation relying on functional tags and for semantic information on the positions (subject v. Oblique). Chapter 5 describes the multilayer annotation structure which is implemented for the analysis of different corpora. It also covers the methods used to automatically annotate functional categories (as well as their evaluation), and it justifies the choices made to support corpus interoperability. Chapter 6 offers a regression analysis which provides evidence on the tendencies of the operationalised variables (the L1, the written or spoken mode of the corpora and the type of reference). Chapter 7 examines the role of the previously coded linguistic properties of the analysis. With the use of classifiers, it describes a system for automatic error analysis. Chapter 8 concludes on the methodologies used in the thesis and their implications in linguistic analysis.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (458 p.)
  • Annexes : 157 réf. Annexes

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Consultable sur place dans l'établissement demandeur
  • Cote : TL (2016) 040
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.