Analyse automatique de l'affixation en malais

par Balisoamanandray Ranaivo

Thèse de doctorat en Traitement automatique des langues

Sous la direction de Patrice Pognan.

Soutenue en 2001

à Paris, INALCO .


  • Résumé

    La finalité de cette thèse est la création d'un analyseur automatique capable d'identifier, de segmenter et d'interpréter les bases préfixées, suffixées et circonfixées présentes dans un texte malais écrit en caractères latins. L'évaluation de l'analyseur a été effectuée sur des textes malais et un texte indonésien. Cet analyseur utilise : un ensemble de règles, une liste d'exceptions, une liste restreinte de bases dépourvues de toute information linguistique et des techniques de reconnaissance des formes. L'algorithme d'analyse est non déterministe. Les bases analysées sont traitées hors contexte. L'évaluation des résultats de l'analyseur a donné environ 97% d'analyses correctes et un taux d'erreur inférieur à 2%. Très peu de bases affixées n'ont pas été analysées (taux inférieur à 0,5%).

  • Titre traduit

    Automatic analysis of affixation in Malay


  • Résumé

    The final aim of this thesis is the creation of an affixation analyser able of identifying , segmenting and interpreting affixed words containing prefix(es), suffix(es), and circumfix(es). The analyser has an input in Malaysian or Indonesian text. In this work, we study the standard Malay used in Malaysia, bahasa Melayu or bahasa Malaysia, which is written with Latin alphabet. To evaluate the accuracy of the analyser, we submitted Malaysian texts and one Indonesian text to the system. This analyser uses : a set of rules, a few list of exceptions, a restricted list of bases and formal identification criteria. The algorithm is non deterministic. Analysed words are treated without taking account of their contexts. The evaluation of the analyser gave around 97% of correct analysis and 2% of incorrect analysis. Very few affixed words were not analysed (rate less than 0,5%)

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (473 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 426-432. Index

Où se trouve cette thèse ?

  • Bibliothèque : Centre de recherche en informatique de Lens. Bibliothèque.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : THE 01 RAN
  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • Disponible pour le PEB
  • Cote : TH.220
  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • Non disponible pour le PEB
  • Cote : TH.C.220
  • Bibliothèque : Ecole des hautes études en sciences sociales (Bibliothèque). Centre Asie du Sud-Est.
  • Disponible pour le PEB
  • Cote : TH 01 - 1
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.