Thèse de doctorat en Lettres modernes. Stylistique statistique
Sous la direction de François-Charles Gaudard.
Soutenue en 2008
à Toulouse 2 .
L’objectif de ce travail est d’analyser et de synthétiser un corpus littéraire à l’aide de statistiques. Classiquement, les fréquences des unités linguistiques indiquent la composition d’un texte ou son « thème ». D’inspiration stylistique et musicale, cette thèse propose de mesurer la rareté à la place de l’abondance, et de prendre en compte l’organisation des unités par leur rythme. Au sein d’un texte, les temps de retour d’une unité sont quasiment décorrélés. Ils se caractérisent par leur distribution en forme de cloche asymétrique, linéarisable avec un conditionnement par le passé. La répartition qui lisse ce spectre se mue alors en pierre de touche. Comparant deux textes, la distance généralisée mesure les écarts entre les répartitions. Dans l’ensemble, elle suit les évolutions de sa version classique fondée sur les fréquences, mais des divergences significatives apparaissent localement selon l’intensité de l’arythmie. Le corpus comprend trois romans du 20e siècle écrits par Yourcenar, Tournier et Le Clézio : Mémoires d’Hadrien, Vendredi ou les limbes du Pacifique et Désert. Les mesures linguistiques portent parallèlement sur les plans graphémologiques, syntaxiques et sémantiques. Globalement, ces plans se répondent et semblent obéir profondément aux mêmes lois linguistiques. Les graphèmes peuvent être privilégiés pour leur objectivité et la simplicité de leur exploitation. Stylistiquement, l’intuition littéraire est confirmée par les mesures, qui montrent une gradation entre les œuvres en suivant leur chronologie. Leurs divisions forment des ensembles homogènes au sein du corpus, si bien qu’un style se dégage et permet de simuler avec succès une attribution d’auteur.
The music of the letters
The purpose of this work is to analyse and synthetise a literary corpus with the use of statistics. Traditionally, the frequencies of linguistic units indicate the composition of a text or its “theme”. This thesis, inspired by stylistics and music, proposes to measure rarity instead of abundance, and to consider the organisation of the units on the basis of their rhythm. Within a text, the recurrence times of a unit are virtually decorrelated and characterised by their asymmetrical bell-shaped distribution, linearisable with a conditioning by the past. The cumulative distribution that smoothes out this spectrum thus becomes a touchstone. Comparing two texts, the generalised distance measures the differences between the cumulative distributions. Taken overall, it follows the developments of its traditional version based on the frequencies, but significant discrepancies appear locally depending on the intensity of the arrhythmia. The corpus consists of three 20th Century novels by Yourcenar, Tournier and Le Clézio : Mémoires d’Hadrien, Vendredi ou les limbes du Pacifique and Désert. The linguistic measurements are carried out simultaneously on the graphemological, syntactic and semantic planes. Globally, these planes correlate and seem to be deeply in accordance with the same linguistic laws. The graphemes may be favoured because they are objective and simple to exploit. Stylistically, the literary intuition is confirmed by the measurements, which show a grading between the works following their chronology. Their divisions form homogeneous assemblies within the corpus, in such a way that a style appears and permits to succesfully simulate the attribution of an author.