Détection d'isotopies par apprentissage profond : l'exemple de la sexualité en latin classique et tardif

par Thibault Clerice

Projet de thèse en Lettres et civilisations antiques

Sous la direction de Christian Nicolas.

Thèses en préparation à Lyon , dans le cadre de École doctorale Lettres, langues, linguistique, arts (Lyon) depuis le 12-10-2017 .


  • Résumé

    En 1982, James N. Adams a produit l'étude de référence sur le vocabulaire latin de la sexualité. Dans son ouvrage, l'auteur présente un large éventail de mots ou d'expressions classées en fonction de leurs caractéristiques stylistiques (métaphore, métonymie, etc.) et sémantiques (guerre, cuisine, chasse, violence...) dans diverses catégories (actes, parties intimes masculines et féminines, etc.). À la même époque, François Rastier redéfinit l'isotopie comme \enquote{la récurrence d'un même trait sémantique} dans un texte. Dans la lignée de ces travaux, nous avons construit un méta-corpus latin inédit de 20 millions de mots en TEI mêlant projets existants et nouveaux textes. En utilisant ce méta-corpus et le travail d'Adams, nous avons construit un exemplier numérique qui fournit 2500 exemples d'isotopies sexuelles latines. Pour traiter le corpus, nous avons développé une méthode et les outils pour lemmatiser et annoter la morphosyntaxe des textes en latins classique et tardif. Enfin, nous avons testé des méthodes d'apprentissage profond pour détecter les isotopies dans des textes latins allant de 200 avant notre ère jusqu'à +700. Cette méthode pourra servir de base à la construction de nouveaux \enquote{vocabulaires} ou exempliers pour d'autres isotopies à l'avenir. Une sélection de méthodes montre des résultats robustes avec l'exemplier complet, et nous évaluons les limites des diverses architectures de modèle de détection d'isotopie en fonction de la taille de l'exemplier ou de la part d'implicite dans ce dernier.

  • Titre traduit

    Detecting Isotopies using Deep Learning : the Example of Sexuality in Classical and Late Latin


  • Résumé

    In 1982, James N. Adams produced the reference study of the Latin sexual vocabulary. In his book, the author presented a wide range of words or expressions refined by their stylistic (metaphor, metonymy, etc.) and semantic (war, cooking, hunting, violence...) features for various categories (acts, male and female pudenda, etc.). Around the same time, François Rastier refined the definition of isotopy as the “the recurrence of the same semantic feature” in a text. We built a completely new Latin meta-corpus of 20 million words in TEI based on the works of existing projects and news sources. Using this meta-corpus and the work of Adams, we built a new completely new digital “handout” that provide 2500 examples of Latin sexual isotopies. To treat the corpus, we developed a method and the tools to lemmatize and annotate morphological and syntactical features of Classical and Late Latin texts. Finally, we set ourselves up to test deep learning methods to detect isotopies in Latin texts spanning from -200 BCE up to the 700 CE. This method should provide the foundation for building new “vocabularies” for other isotopies in the future. A selection of methods show robust results with a full corpus, and we discuss the limits of these models based on the corpus size or the difficulty of the task.