Thèse soutenue

Caractérisation de registres de langue par extraction de motifs séquentiels émergents

FR  |  
EN
Auteur / Autrice : Jade Mekki
Direction : Damien LoliveGwénolé Lecorvé‎Delphine Battistelli
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/09/2022
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - EXPRESSION
Jury : Président / Présidente : Jean-Yves Antoine
Examinateurs / Examinatrices : Olivier Baude, Dominique Legallois
Rapporteurs / Rapporteuses : Farah Benamara, Thierry Charnois

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse s'intéresse à la caractérisation automatique des registres de langue. Sur le plan linguistique, notre contribution est d'étudier les apports des techniques de traitement automatique des langues pour extraire de nouvelles connaissances à propos des registres familier, courant et soutenu. Sur le plan informatique, nous avons proposé une méthode suffisamment générique et non supervisée pour caractériser tout type de variation linguistique, les registres s'apparentant alors à un cas d'usage. Dans le manuscrit, nous dressons tout d'abord un état des lieux des multiples différentes définitions présentes dans la littérature, par rapport auquel nous positionnons nos travaux. Nous présentons alors la constitution linguistiquement motivée d'un large corpus de tweets en français annotés en registres. Les annotations résultent d'un procédé semi-supervisé fondé sur une graine annotée manuellement en registres et un classifieur qui généraliste les annotations à l’ensemble des tweets. À partir de ce corpus annoté, nous montrons ensuite que l'emploi de techniques d’extraction de motifs séquentiels émergents permet d'extraire des traits linguistiques caractéristiques des registres étudiés. Enfin, nous détaillons notre approche pour réduire le nombre de motifs extraits en vue d'une meilleure interprétabilité des caractérisations produites.