Modélisation d'un discours étymologique. Prolégomènes à l'informatisation du Französisches Etymologisches Wörterbuch

par Pascale Renders

Thèse de doctorat en Sciences du langage

Sous la direction de Eva Buchi et de Marie-Guy Boutier.

Soutenue le 20-06-2011

à Nancy 2 en cotutelle avec l'Université de Liège , dans le cadre de Ecole doctorale Langages, Temps, Sociétés (LTS) (Nancy-Metz) , en partenariat avec ATILF - Analyse et traitement informatique de la langue française - UMR 7118 (laboratoire) .

Le président du jury était Jean-Paul Chauveau.

Le jury était composé de Pierre-Arnoul De Marneffe, Yan Grueb, Gérald Purnelle, Wolfgang Raible.


  • Résumé

    Le Französisches Etymologisches Wörterbuch, ouvrage de référence en linguistique française et romane, est actuellement sous-exploité, en raison des difficultés de consultation que posent ses particularités lexicographiques. La rétroconversion des 25 volumes imprimés en un dictionnaire informatisé, que la communauté scientifique appelle de ses voeux, pourrait remédier à ce problème. La densité et la complexité structurelle de l'ouvrage font toutefois craindre que l'opération se révèle peu raisonnable, voire utopique. Par ailleurs, l'informatisation présente le risque de dénaturer le discours fewien et d'ouvrir la voie à des pratiques de consultation incorrectes. Cette thèse se propose d'étudier la faisabilité du projet de rétroconversion du FEW, en prenant en compte toutes les contraintes qui lui sont imposées. Dans la première partie de l'étude, nous modélisons le discours étymologique fewien de façon à résoudre les difficultés de consultation et de lecture relevées, tout en respectant les structures de l'ouvrage. Cette modélisation, formalisée en XML, rend compte de deux dimensions complémentaires du FEW, correspondant à deux visions de l'oeuvre : comme un thesaurus d'unités lexicales d'une part, comme un recueil de monographies d'autre part. La seconde partie de notre étude examine comment appliquer le modèle au texte fewien de façon automatisée. Un logiciel de rétroconversion a été conçu dans ce but. Le noyau du logiciel est constitué d'une trentaine d'algorithmes qui identifient, dans un article du FEW, les divers types d'information pertinents et les balisent. L'application du logiciel sur un corpus de 150 articles du FEW produit des résultats de balisage comportant très peu d'erreurs problématiques. Le résultat est encore perfectible, mais il démontre la faisabilité d'une rétroconversion du FEW qui, moyennant la création d'outils d'exploitation appropriés (moteur et interface de recherche), devrait répondre à la majorité des attentes de la communauté scientifique, en rendant l'ouvrage plus accessible sans pour autant éluder la complexité et la profondeur de son discours.

  • Titre traduit

    Modelization of an etymological discourse. Prolegomena to the computerization of the Französisches Etymologisches Wörterbuch


  • Résumé

    The Französisches Etymologisches Wörterbuch, the reference book in French and Romance linguistics, is currently underused because its lexicographic features make it hard to search and hard to read. The retroconversion of the 25 printed volumes of the FEW into a computerized dictionary, as desired by the scientific community, may address this problem. The density and the structural complexity of the dictionary may however make retroconversion appear as an unreasonable, even utopian, endeavor. Furthermore, computerization induces the risk of skewing the fewian discourse, thus opening the way to incorrect search practices. This doctoral dissertation proposes to study the feasibility of the retroconversion of the FEW, taking into account all of the constraints on the project. In the first part of the study, we model the fewian etymological discourse in order to address the searchability and readability issues of the dictionary in a way that preserves its structures. This modeling, formalized in XML, takes account of two complementary dimensions of the FEW, corresponding to two visions of the dictionary: a thesaurus of lexical units on one hand, a collection of monographs on the other hand. The second part of our study examines how to apply the model to the fewian text in an automated fashion. A retroconversion software was constructed to this end. The kernel of the software is comprised of about thirty algorithms that identify and tag, in an article of the FEW, the various relevant types of information. The application of the software to a corpus of 150 FEW articles results in a tagging that exhibits very few problematic errors. There is still room for improving the tagging, but it already demonstrates the feasibility of a retroconversion of the FEW that, assuming the availability of appropriate exploitation tools (search engine and search interface), should address most of the expectations of the scientific community, making the dictionary more accessible without eluding the complexity and depth of the fewian discourse.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.