Thèse soutenue

La référence dans l'interlangue : le cas de this et that : De l'annotation linguistique à l'interopérabilité des corpus
FR
Accès à la thèse
Auteur / Autrice : Thomas Gaillat
Direction : Nicolas BallierPascale Sébillot
Type : Thèse de doctorat
Discipline(s) : Linguistique anglaise
Date : Soutenance en 2016
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris1992-2019)
Partenaire(s) de recherche : Laboratoire : Centre de linguistique interlangues, lexicologie, linguistique anglaise et de corpus - atelier de la parole (Paris ; 2005-....)
autre partenaire : Université Paris Diderot - Paris 7 (1970-2019)
Jury : Président / Présidente : John Osborne
Examinateurs / Examinatrices : John Osborne, Ana Díaz-Negrillo
Rapporteurs / Rapporteuses : Walt Detmar Meurers

Résumé

FR  |  
EN

Cette thèse s'attache à décrire les constructions inattendues en THIS et en THAT des apprenants francophones et hispanophones de l'anglais. Le chapitre 1 pose la problématique de l'étude des marqueurs THIS et THAT au sein des deux microsystèmes des déictiques et des proformes. Le chapitre 2 présente les différentes analyses de la référence de THIS et de THAT en anglais natif, dans les différents cadres théoriques (Cornish, Cotte, Halliday & Hasan, Kleiber, Fraser & Joly, Lapaire & Rotgé) et croise les problématiques de représentations (anaphore/deixis ; endophoricité/exophoricité) avec l'analyse des réalisations fonctionnelles. Le chapitre 3 dresse un état des lieux rapide de l'analyse de l'interlangue et montre la nécessité d'une approche dynamique des systèmes fondée sur la nécessité de la distinction fonctionnelle. Le chapitre 4 détaille les jeux d'étiquettes existants dans les corpus de l'anglais (Penn Treebank, Claws7, ICE-GB) et montre la nécessité d'une ré-annotation plus fine fondée sur des étiquettes fonctionnelles et d'une sémantique des positions (sujets vs. Oblique). Le chapitre 5 décrit l'architecture de l'annotation multi-niveaux mise en oeuvre pour l'analyse de corpus différents, les méthodes de ré-annotation automatique des catégories fonctionnelles (ainsi que leur évaluation) et expose les choix retenus pour l'interopérabilité de ces corpus. Le chapitre 6 propose une analyse statistique fondée sur des modèles de régression qui mettent au jour les tendances des variables opérationnalisées dans l'analyse (la L1, le mode écrit ou oral du corpus, le type de référence). Le chapitre 7 examine, à partir du recours aux classifieurs, le rôle respectif des propriétés linguistiques codées dans l'analyse et simule un système d'analyse automatique des erreurs. Le chapitre 8 tire les conséquences pour l'analyse linguistique des méthodologies mobilisées dans la thèse.