Thèse soutenue

Brouillard de pollution en Chine. Analyse sémantique différentielle de corpus institutionnels, médiatiques et de microblogues

FR  |  
EN
Auteur / Autrice : Qinran Dang
Direction : Mathieu ValetteNicolas Turenne
Type : Thèse de doctorat
Discipline(s) : Traitement automatique des langues
Date : Soutenance le 29/06/2020
Etablissement(s) : Paris, INALCO
Ecole(s) doctorale(s) : École doctorale Langues, littératures et sociétés du monde (Paris)
Partenaire(s) de recherche : Equipe de recherche : Equipe de Recherche Textes, Informatique, Multilinguisme (Paris)
Laboratoire : Équipe de Recherche en Textes- Informatique- Multilinguisme / ERTIM
Jury : Examinateurs / Examinatrices : Mathieu Valette, Nicolas Turenne, Damon Mayaffre, Hong miao Wu
Rapporteurs / Rapporteuses : Damon Mayaffre, Hong miao Wu

Résumé

FR  |  
EN

Au fur et à mesure de la dégradation de la qualité de l'air en Chine, de plus en plus d'articles journalistiques et de microblogues (weibo en chinois, équivalent de tweet), provenant de sites web gouvernementaux, médiatiques, de réseaux sociaux, de forums ou de blogs, traitent le problème du « 雾霾 » (wumai en chinois, pour désigner le brouillard de pollution) en Chine sous plusieurs angles : politique, écologique, économique, sociologique, sanitaire, etc. La sémantique des thèmes abordés dans ces textes diffère sensiblement en fonction de leur genre textuel. Dans cette thèse, nous avons pour objectif d'une part, de relever les différents thèmes d'un corpus numérique traitant du wumai et spécifiquement construit à cette fin, et d'autre part, d'interpréter de façon différentielle la sémantique de ces thèmes. Dans un premier temps, nous collectons les données textuelles en langue chinoise relatives au wumai. Ces textes provenant de trois sites web chinois traditionnels et du réseau social sont divisés en quatre genres textuels. Après une série de traitements préparatoires : nettoyage, segmentation, normalisation, annotation, balisage et organisation, nous étudions les caractéristiques des quatre genres textuels du corpus à partir d'une série de variables discriminantes - hyperstructurelles, lexicales, sémiotiques, rhétoriques, modales et syntaxiques - réparties au niveau infratextuel et intratextuel. Ensuite, en nous basant sur les caractéristiques de chaque genre textuel, nous relevons les thèmes principaux exposés dans chaque genre de sous-corpus, et analysons de manière contrastive la sémantique de ces thèmes récupérés. Les résultats d'étude sont interprétés de manière quantitative et qualitative. Les analyses quantitatives s'effectuent à l'aide d'outils textométriques, les interprétations sémantiques s'inscrivent dans le cadre théorique de la sémantique interprétative (SI) proposée par Rastier (1987).