Thèse soutenue

Approches statistiques et informatiques sur l'acquisition du français langue première : une étude basée sur les suivis longitudinaux du corpus de Paris (CoLaJE)

FR  |  
EN
Auteur / Autrice : Andrea Briglia
Direction : Jérémi SauvageMassimo Mucciardi
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 09/03/2021
Etablissement(s) : Montpellier 3 en cotutelle avec Università degli studi (Messine, Italie)
Ecole(s) doctorale(s) : École doctorale Langues, Littératures, Cultures, Civilisations (Montpellier ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Langages HUmanités Médiations Apprentissages Interactions Numérique / LHUMAIN (Montpellier) - Langages HUmanités Médiations Apprentissages Interactions Numérique / LHUMAIN (Montpellier)
Jury : Président / Présidente : Jean-Pierre Chevrot
Examinateurs / Examinatrices : Johanna Paula Monique Fikkert, Christophe Parisse, Valentina Cardella, Francesco La Mantia, Giovanna Marotta

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le projet ANR « CoLaJE » (Morgenstern & Parisse, 2012) consiste en sept corpora d’enfants francophones filmés une heure par mois, tous les mois, dès l’age d’un an jusqu’à environ 5 ans. L’ensemble de données est disponible en libre accès et fait partie de la branche française de CHILDES. Nous avons choisi cette base de données parce que – à ce jour – elle est la plus complète, en termes qualitatifs aussi bien qu’en quantitatifs. En plus, nous estimons que l’échantillonnage effectué dans la collecte mensuelle des données est conforme aux indications de fiabilité énoncées par Tomasello et Stahl (2004). Chaque corpus a été codé en CHAT et transcrit en pho (ce que l’enfant prononce) et – pour certains corpora dont les deux qu’on utilise en cette étude - mod (ce que l’enfant aurait dû prononcer selon la norme), ce qui nous permet d’uniformiser les données phonético-phonologiques, de les contextualiser pour mieux les interpréter et, enfin, de pouvoir y appliquer des traitements automatiques.Nous nous focalisons sur les corpora d’« Adrien » et « Madeleine » car ils sont les plus complets: nous avons extrait chaque ligne en format .csv, ensuite nous avons choisi de commencer par la transcription no 8 (1an 11mois; 14jours) pour Adrien et la no 32 (1 ;01 ;10) pour Madeleine, puisque pour les précédentes il était difficile de distinguer entre les mots et les simples suites des syllabes (le « babillage canonique » et le « babillage diversifié »). Au total nous avons 26 enregistrements et 8214 énoncés pour Adrien et. 25 enregistrements et 7168 énoncés pour Madeleine.Nous avons choisi le « Universal Dependencies » treebank (de Marneffe et al., 2006, 2008, 2014) comme modèle de référence d’analyse du langage en parties du discours, principalement parce que nous avoins déjà eu une expérience avec ce modèle (Briglia et al., 2020). Ce choix nous a porté à adopter “stanza”, un outil d’analyse du langage majoritairement entraîné en utilisant les UD. « stanza » est une des bibliothèques de TAL disponible en langage Python, développée par l’Université de Stanford: puisque le système d’annotation automatique ne reconnaît pas les caractères spéciaux de l’API (Alphabet Phonétique International), nous l’avons appliquée sur le tier CHI : ce choix implique une forte confiance envers l’interprétation des transcripteurs : il est néanmoins possible de consulter – énoncé par énoncé – toutes les différences entre CHI – pho –mod. La qualité de l’annotation produite par « stanza » est élevée et, pour la plupart des tâches, son score est meilleur que celui de ses concurrents (e.g UDPipe, spaCy), comme le montre le tableau numéro 2 « Neural pipeline performance comparisons on the Universal Dependencies (v2.5) test treebanks” (Qi et al., 2020)Puisque le langage de l’enfant est plus variable et imprévisible de celui de l’adulte et étant considéré que UD et « stanza » ont été conçus pour le langage des adultes, les auteurs de cet article ont jugé nécessaire un contrôle manuel de quatre-vingt énoncés par enfant (ce qui représente environ 1% du total) équitablement repartis au fil du temps, afin de comprendre l’effective fiabilité de l’outil pour cette application.