Concepts et algorithmes pour la decouverte des structures formelles des langues

par HERVE DEJEAN

Thèse de doctorat en Sciences appliquées

Sous la direction de Khaldoun Zreik.

Soutenue en 1998

à Caen .

    mots clés mots clés


  • Résumé

    Que peut-on apprendre sur la structure d'une langue a partir d'un texte ecrit dans cette langue, et ceci sans connaissance particuliere sur celle-ci et avec l'aide (disons l'utilisation) d'un ordinateur ? voila la question a laquelle nous avons essaye de repondre. Cette reponse peut etre vue comme une continuation des travaux en analyse distributionnelle developpee dans zellig harris. L'objectif de ce travail est donc de decouvrir les structures formelles d'une langue en etudiant ces regularites formelles contenues dans un corpus. Notre methode de decouverte se base sur une simple conception formelle de la langue : un objet lineaire dans lequel les frontieres (de debut et de fin) des differentes structures sont indiquees par des elements caracteristiques. Les structures ainsi identifiees sont le syntagme simple (non recursif), et la proposition, structures a la fois multilingues et formelles. Ces indicateurs de frontieres correspondent a des morphemes (libres ou lies) pour le syntagme, et a des morphemes ou des syntagmes pour la proposition. A partir de ces structures theoriques, nous construisons la liste de toutes les categories qu'un element (morpheme ou mot) peut prendre. Une fois ces structures et categories recensees, nous construisons des contextes specifiques a chaque categorie afin de categoriser les elements du texte. Nous obtenons donc un mecanisme permettant d'assigner a un element plusieurs categories si cet element apparait dans differents contextes. Ces contextes sont construits a l'aide des elements prototypiques de marqueurs de frontieres de structures, identifiables grace a leur position par rapport a la segmentation physique du texte (en particulier les ponctuations). Les resultats obtenus permettent la categorisation des mots du corpus, ainsi qu'une segmentation partielle en syntagmes. La methode a ete appliquee a une dizaine de langues comme le francais, l'allemand, le swah


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 253 P.
  • Annexes : 119 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.