Dictionnaire électronique des mots français à trait d'union : problèmes de lexicographie informatique

par Michel Mathieu-Colas

Thèse de doctorat en Sciences du langage

Sous la direction de Gaston Gross.

Soutenue en 1993

à Paris 13 .


  • Résumé

    Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou l'interet d'un recensement systematique, presente sous la forme d'un dictionnaire electronique. Chaque entree donne lieu a un codage formel et semantique : description morphotogique (type de composition, categorie grammaticale, flexion) ; particularites orthographiques (notation des variantes) ; informations semantiques (traits, domaines, classes d'objets et registres). Au total, plus de 17000 unites se trouvent ainsi decrites. Le format adopte permet une analyse precise des parametres en presence. La reflexion porte en particulier sur la morphologie, l'orthographe et la typologie (etude des formes de composition : plus de trois cents types repertories). Le dictionnaire est complete par un lecique de 1900 locutions impliquant un trait d'union (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) et par une presentation des principaux modeles productifs regissant les neologismes et les creations libres. Au-dela des particularites liees au trait d'union, l'accent est mis, du point de vue methodologique, sur les modalites de representation de l'information lexicale dans un dictionnaire electronique : le degroupement des entrees permet de prendre en charge, a cote de la description morphologique des unites, leur caracterisation semantique (notamment les domaines et les "classes d'objets"). Ce type d'information s'avere indispensable pour l'utilisation effective du dictionnaire dans des applications informatiques.


  • Résumé

    Hyphenated words are oneof the main difficulties of french spelling ; moreover, they constitute a choice sample for a linguistic study of compound words. For this reason, a systematic inventory has been made in the form of an electronic dictionary. Each entry is coded formally and semantically in the following manner : morphological description (type of compound grammatical category, flexion) ; spelling (noting variation) ; semantic information (features, field of refefence, "classes of objects" and registers). All in all, more than 17000 units are thus described. This lay-out lends itself to aprecise analysis of the parameters present, concerning more particularly morphology, spelling and typology (study of the forms ofcompounds : over 300 types are represented). The last part of the study includes a glossary of 1900 phrases with a hyphenated form (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) and a presentation of the main productive models involving neologisms and free creation. Beyond the particularities linked with the hyphen, the ways of represenging lexical information in an electronic dictionary are investigated : splitting up the entries makes it possible to deal not only with the morphological description of the units, but also with the semantic characterization (in particular the fields of reference and the "classes of objects"), indispensable for the effective use of thedictionary by the computer.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 2 vol. (351p.)(376 p.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Droit/Lettres.
  • Disponible pour le PEB
  • Cote : TH 1993 026
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.