Analyse textuelle de corpus de discours écologiques relatifs au wu mai (brouillard de pollution) en Chine au moyen de méthodes de fouilles de textes

par Qinran Dang

Projet de thèse en Traitement automatique des langues

Sous la direction de Mathieu Valette.

Thèses en préparation à Paris, INALCO , dans le cadre de École doctorale Langues, littératures et sociétés du monde (Paris) depuis le 01-10-2015 .


  • Résumé

    Depuis 2008, la dégradation de la situation environnementale en Chine, surtout la qualité atmosphérique, préoccupe sérieusement la population chinoise, notamment après que cette pollution de l’air a pris une ampleur inédite et a commencé à perturber presque tous les aspects de la vie quotidienne. Dorénavant, en Chine, une appellation dédiée à ce type de pollution – « 雾霾 » (wù maí en chinois, pour désigner le brouillard de pollution) – a fait son apparition « omniprésente » en Chine sur les sites de presse, les réseaux sociaux, les forums/blogs, etc. Les textes écrits en chinois au sujet du « brouillard de pollution » sont ainsi devenus foisonnants. Dans le cadre du présent travail de notre recherche, par le contraste des quatre genres discursifs de sous-corpus numérique (institutionnel, médiatique_institutionnel, médiatique_informel et profane), notre approche analytique articule l’analyse du genre textuel, les études sémantiques interprétative, et les analyses textométriques au moyen des outils de text mining. Suivant le concept général de la théorie sémantique interprétative -- « le global(genre) détermine le local(sémantique) » et « le sens est contextuel », nous avons étudié la sémantique textuelle du corpus écologique relatif au sujet de wùmai sur trois plans : 1) caractériser les quatre genres discursifs du corpus sous différents angles : infratextuel et intertextuel ; 2) détecter avec les sèmes isotopants les thèmes principaux élaborés dans chaque genre de sous-corpus au niveau mésosémantique, et 3) évaluer et contraster les manières de traitements de chaque thème à l’aide des composantes dialogique et dialectique. Basé sur un cadre contextuel, interprétatif et anthropique, nous avons constaté que, malgré les similarités des thèmes principaux récupérés dans les quatre types de sous-corpus (les origines de wùmaí, les impacts de wùmaí sur la santé et les mesures préventives proposées), différents genres textuels de sous-corpus se distingue l’un à l’autre au niveau des manières interprétative de traitement dialogique et dialectique : contraints par leur vocation de la production de la norme et de la stabilité sur un mode énonciatif et impératif, plus les textes sont du genre institutionnel, plus ils sont statiques (un style normé), généraux (mots/termes généraux), abstraits(mots/termes), distants (la distance de l’énonciateur par rapport à l’objet); au contraire, plus les textes sont de type profane, plus sont-ils dynamiques, concrets (mots termes), proches(la distance de l’énonciateur par rapport à l’objet) et pratiques, car ces textes sont les produits des pratiques et d’expériences, qui relèvent de la praxéologie. Alors que les genres média-institutionnel et média-informel, qui sont de nature entre-deux manifestent ainsi des caractéristiques intermédiaires au niveau des manières interprétatives de traitement dialogique et dialectique.


  • Pas de résumé disponible.