Automatic annotation of similes in literary texts

par Suzanne Patience Mpouli Njanga Seh

Thèse de doctorat en Informatique

Sous la direction de Jean-Gabriel Ganascia.

Soutenue le 03-10-2016

à Paris 6 , dans le cadre de École doctorale Informatique, télécommunications et électronique (Paris) , en partenariat avec Laboratoire d'Informatique de Paris 6 (laboratoire) .

Le jury était composé de Walter Daelemans, Stéphane Ferrari, Dominique Legallois, Catherine Fuchs, Vanda Luengo.

  • Titre traduit

    Annotation automatique des comparaisons figuratives dans les textes littéraires


  • Résumé

    Cette thèse aborde le problème de la détection automatique des comparaisons figuratives dans des textes littéraires en prose écrits en français ou en anglais et propose un canevas pour décrire ces comparaisons d’un point de vue stylistique. Une comparaison figurative correspond ici à toute structure syntaxique qui met en parallèle au moins deux entités, déroge au principe de compositionnalité et crée une image mentale dans l’esprit de ceux à qui elle est destinée.Trois éléments principaux distinguent notre approche des travaux précédents : son ancrage dans les théories linguistiques et cognitives sur les comparaisons littérales et figuratives, sa capacité à gérer des marqueurs appartenant à différentes catégories grammaticales et sa flexibilité qui lui permet d’envisager différents scénarios syntaxiques. De fait, nous proposons une méthode comprenant trois modules complémentaires : - un module syntaxique qui utilise des dépendances syntaxiques et des règles manuelles pour identifier les comparaisons potentielles ainsi que leurs composantes ;- un module sémantique qui mesure la saillance des motifs détectés et la similarité sémantique des termes comparés en se basant sur une base de données préétablie ;- et un module d’annotation qui fournit entre autres des informations sur le type de comparaison (idiomatique, sensorielle…) et sur les catégories sémantiques employées.Pour finir, au vu des données recueillies au cours des deux campagnes d’annotation que nous avons menées, il paraît clair que la détection automatique des comparaisons figuratives doit tenir compte de plusieurs facteurs parmi lesquels la saillance, la catégorisation et la syntaxe de la phrase.


  • Résumé

    This thesis tackles the problem of the automatic recognition of similes in literary texts written in English or in French and proposes a framework to describe them from a stylistic perspective. For the purpose of this study, a simile has been defined as a syntactic structure that draws a parallel between at least two entities, lacks compositionality and is able to create an image in the receiver’s mind.Three main points differentiate the proposed approach from existing ones: it is strongly influenced by cognitive and linguistic theories on similes and comparisons, it takes into consideration a wide range of markers and it can adapt to diverse syntactic scenarios. Concretely speaking, it relies on three interconnected modules: - a syntactic module, which extracts potential simile candidates and identifies their components using grammatical roles and a set of handcrafted rules, - a semantic module which separates creative similes from both idiomatic similes and literal comparisons based on the salience of the ground and semantic similarity computed from data automatically retrieved from machine-readable dictionaries;- and an annotation module which makes use of the XML format and gives among others information on the type of comparisons (idiomatic, perceptual…) and on the semantic categories used.Finally, the two annotation tasks we designed show that the automatic detection of figuration in similes must take into consideration.Finally, the two annotation tasks we designed show that the automatic detection of figuration in similes must take into consideration a series of features among which salience, categorisation and the sentence syntax.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.