Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français

par Mourad Aouini

Thèse de doctorat en Sciences du langage. Traitement automatique des langues

Sous la direction de Max Silberztein et de Jean-Philippe Genet.

Soutenue le 19-03-2018

à Bourgogne Franche-Comté , dans le cadre de École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....) , en partenariat avec Edition, Langages, Littératures, Informatique, Arts, Didactiques, Discours (ELLIADD) (Besançon) (laboratoire) , Université de Franche-Comté (établissement de préparation) et de Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours [Besançon] (laboratoire) .

Le président du jury était Céline Barbance-Guillot.

Le jury était composé de Max Silberztein, Jean-Philippe Genet, Céline Barbance-Guillot, Samir Mbarki, Kim Gerdes.

Les rapporteurs étaient Céline Barbance-Guillot, Samir Mbarki.


  • Résumé

    Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle.

  • Titre traduit

    Multi-level approach for the analysis of non-standardized textual data : corpus of texts in middle french


  • Résumé

    This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries.

Autre version

Cette thèse a donné lieu à une publication

Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque universitaire électronique, Besançon.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication

Informations

  • Sous le titre : Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
  • Détails : 1 vol. (313 f.)
  • Annexes : Bibliographie f.298-313.
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.