Une normalisation de l'emploi de la majuscule et sa représentation formelle pour un système de vérification automatique des majuscules dans un texte

par Mounira Bioud

Thèse de doctorat en Sciences du langage

Sous la direction de Sylviane Cardey-Greenfield.


  • Résumé

    Cette recherche repose sur l'étude des problèmes relatifs à l'emploi de la majuscule dans une perspective de traitement automatique des langues en vue d'une correction automatique. L'usage des majuscules en français souffre d'une absence de norme fixe et universelle qui entraîne inévitablement leur placement aléatoire et souvent injustifié. Cette absence fait apparaître d'une part des phénomènes appelés majusculite (abus des majuscules) et minusculite (abus des minuscules) et d'autre part la présence de variantes orthographiques (la Montagne noire, la montagne Noire, la Montagne Noire, la montagne noire). Les correcticiels actuels semblent incapables de dire quelle est la bonne orthographe. Le véritable sens des majuscules tend à disparaître et leur pertinence à devenir moins évidente. Tant d'incertitudes, d'hésitations et de flottements dans les règles d'usage, tant de différences de traitement d'un ouvrage à un autre rendent toute tentative d'automatisation très difficile. Cette normalité bancale touche plus particulièrement les noms propres dits complexes ou dénominations. La solution la plus logique pour que cesse la dérive, est de normaliser l'emploi des majuscules. En nous basant sur un certain nombre d'ouvrages de référence, nous avons élaboré des règles claires et logiques régissant l'emploi de la majuscule afin de créer un modèle théorique à la base d'un système de vérification automatique des majuscules. Cette solution voit ainsi la disparition des variantes orthographiques dont l'existence constitue également un problème majeur dans la recherche en extraction de formes figées.

  • Titre traduit

    ˜A œstandardization of the use of upper case letter and its formal representation for an automatic checking system of capital letters in a text


  • Résumé

    This research deals with the study of the problems relating to the use of the upper case letter from the point of view of Natural Language Processing for an automatic spelling correction. The use of the French capital letters suffers from a lack of fixed standardization which inevitably involves that they are used without methodology. This absence reveals on the one hand phenomenon called “majusculite” (abuse of the capital letters) and “minusculite” (abuse of small letters) and on the other hand the presence of spelling variants (la Montagne noire, la montagne Noire, la Montagne Noire, la montagne noire). The current spelling checkers seem unable to say which the good form is. The true direction of upper case letters tends to disappear and their relevance becoming less obvious. Such an amount of doubts, hesitations and fluctuations in the rules of employment, so many differences between the different authors return any attempt of automatic processing very difficult. This wobbly normality more particularly touches the proper nouns known as complex or “dénominations”. The most logical solution so that cease the drift, is to standardize the use of the capital letters. Basing us on various reference works, we worked out clear and logical rules governing the use of the capital letter in order to create a theoretical model of an automatic system checking capital letters. Thus, this solution sees the disappearance of the spelling variants whose existence also constitutes a major problem in research in extraction of fixed forms.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (225 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 218-225

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque universitaire. Section Lettres.
  • Disponible pour le PEB
  • Cote : 219338
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-730
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.