Linguistic complexity and information : quantitative approaches

par Yoon Mi Oh

Thèse de doctorat en Sciences du langage

Sous la direction de François Pellegrino.

Soutenue le 20-10-2015

à Lyon 2 , dans le cadre de École doctorale Lettres, langues, linguistique et arts (Lyon) , en partenariat avec Laboratoire Dynamique Du Langage (équipe de recherche) .

Le président du jury était Christine Bracquenier.

Le jury était composé de Christophe Coupé.

Les rapporteurs étaient Bart De Boer, Bernd Möbius.

  • Titre traduit

    Complexité et information linguistiques : approches quantitatives


  • Résumé

    La communication humaine vise principalement à transmettre de l'information par le biais de l'utilisation de langues. Plusieurs chercheurs ont soutenu l'hypothèse selon laquelle les limites de la capacité du canal de transmission amènent les locuteurs de chaque langue à encoder l'information de manière à obtenir une répartition uniforme de l'information entre les unités linguistiques utilisées. Dans nos recherches, la stratégie d'encodage de l'information en communication parlée est connue comme résultant de l'interaction complexe de facteurs neuro-cognitifs, linguistiques, et sociolinguistiques et nos travaux s'inscrivent donc dans le cadre des systèmes adaptatifs complexes. Plus précisément, cette thèse vise à mettre en évidence les tendances générales, translinguistiques, guidant l'encodage de l'information en tenant compte de la structure des langues à trois niveaux d'analyse (macrosystémique, mésosystémique, et microsystémique). Notre étude s'appuie ainsi sur des corpus oraux et textuels multilingues dans une double perspective quantitative et typologique. Dans cette recherche, la langue est définie comme un système adaptatif complexe, régulé par le phénomène d'auto-organisation, qui motive une première question de recherche : "Comment les langues présentant des débits de parole et des densités d'information variés transmettent-elles les informations en moyenne ?". L'hypothèse défendue propose que la densité moyenne d'information par unité linguistique varie au cours de la communication, mais est compensée par le débit moyen de la parole. Plusieurs notions issues de la théorie de l'information ont inspiré notre manière de quantifier le contenu de l'information et le résultat de la première étude montre que le débit moyen d'information (i.e. la quantité moyenne d'information transmise par seconde) est relativement stable dans une fourchette limitée de variation parmi les 18 langues étudiées. Alors que la première étude propose une analyse de l'auto-organisation au niveau macro- systémique, la deuxième étude porte sur des sous-systèmes linguistiques tels que la phonologie et la morphologie : elle relève donc d'une analyse au niveau mésosystémique. Elle porte sur les interactions entre les modules morphologique et phonologique en utilisant les mesures de la complexité linguistique de ces modules. L'objectif est de tester l'hypothèse d'uniformité de la complexité globale au niveau mésosystémique. Les résultats révèlent une corrélation négative entre la complexité morphologique et la complexité phonologique dans les 14 langues et vont dans le sens de l'hypothèse de l'uniformité de la complexité globale d'un point de vue typologique holistique. La troisième étude analyse l'organisation interne des sous-systèmes phonologiques au moyen de la notion de charge fonctionnelle (FL) au niveau microsystémique. Les contributions relatives des sous-systèmes phonologiques (segments, accents, et tons) sont évaluées quantitativement en estimant leur rôle dans les stratégies lexicales. Elles sont aussi comparées entre 2 langues tonales et 7 langues non-tonales. En outre, la distribution interne de la charge fonctionnelle à travers les sous-systèmes vocaliques et consonantiques est analysée de façon translinguistique dans les 9 langues. Les résultats soulignent l'importance du système tonal dans les distinctions lexicales et indiquent que seuls quelques contrastes dotés d'une charge fonctionnelle élevée sont observés dans les distributions inégales de charge fonctionnelle des sous-systèmes dans les 9 langues. Cette thèse présente donc des études empiriques et quantitatives réalisées à trois niveaux d'analyse, qui permettent de décrire des tendances générales parmi les langues et apportent des éclaircissements sur le phénomène d'auto-organisation.


  • Résumé

    The main goal of using language is to transmit information. One of the fundamental questions in linguistics concerns the way how information is conveyed by means of language in human communication. So far many researchers have supported the uniform information density (UID) hypothesis asserting that due to channel capacity, speakers tend to encode information strategically in order to achieve uniform rate of information conveyed per linguistic unit. In this study, it is assumed that the encoding strategy of information during speech communication results from complex interaction among neurocognitive, linguistic, and sociolinguistic factors in the framework of complex adaptive system. In particular, this thesis aims to find general cross-language tendencies of information encoding and language structure at three different levels of analysis (i.e. macrosystemic, mesosystemic, and microsystemic levels), by using multilingual parallel oral and text corpora from a quantitative and typological perspective. In this study, language is defined as a complex adaptive system which is regulated by the phenomenon of self-organization, where the first research question comes from : "How do languages exhibiting various speech rates and information density transmit information on average ?". It is assumed that the average information density per linguistic unit varies during communication but would be compensated by the average speech rate. Several notions of the Information theory are used as measures for quantifying information content and the result of the first study shows that the average information rate (i.e. the average amount of information conveyed per second) is relatively stable within a limited range of variation among the 18 languages studied. While the first study corresponds to an analysis of self-organization at the macrosystemic level, the second study deals with linguistic subsystems such as phonology and morphology and thus, covers an analysis at the mesosystemic level. It investigates interactions between phonological and morphological modules by means of the measures of linguistic complexity of these modules. The goal is to examine whether the equal complexity hypothesis holds true at the mesosystemic level. The result exhibits a negative correlation between morphological and phonological complexity in the 14 languages and supports the equal complexity hypothesis from a holistic typological perspective. The third study investigates the internal organization of phonological subsystems by means of functional load (FL) at the microsystemic level. The relative contributions of phonological subsystems (segments, stress, and tones) are quantitatively computed by estimating their role of lexical strategies and are compared in 2 tonal and 7 non-tonal languages. Furthermore, the internal FL distribution of vocalic and consonantal subsystems is analyzed cross-linguistically in the 9 languages. The result highlights the importance of tone system in lexical distinctions and indicates that only a few salient high-FL contrasts are observed in the uneven FL distributions of subsystems in the 9 languages. This thesis therefore attempts to provide empirical and quantitative studies at the three different levels of analysis, which exhibit general tendencies among languages and provide insight into the phenomenon of self-organization.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.