Stratégies et règles minimales pour un traitement automatique de l'arabe

par Christian Gaubert

Thèse de doctorat en Mondes africains, arabes et turcs

Sous la direction de Claude-France Audebert.

Soutenue en 2001

à Aix-Marseille 1 .


  • Résumé

    La théorie de la minimalité dans le traitement automatique de l'arabe développée depuis 1985 par Audebert et Jaccarini est exposée dans ses grands principes, qui visent la construction d'un moniteur morpho-syntaxique : une analyse morphologique sans lexique effectuée par des automates augmentés et reflétant un compromis entre les phénomènes de concaténation et le croisement entre racines et schèmes, le rôle syntaxique central des invariants de la morphologie qui sont des tokens syntaxiques, et la description de ce rôle par des automates variables. Un logiciel écrit en C, Sarfiyya, a été créé pour poursuivre ce travail théorique et le confronter à la réalité de corpus de textes informatisés de presse et de littérature. Il repose sur un système original d'étiquettes floues privilégiant la détermination pour le nom, le mode/aspect pour le verbe, la famille syntaxique pour les tokens. Un éditeur graphique et interactif d'automates, un analyseur d'automates augmentés par des micro-lexiques et d'autres fonctions de Sarfiyya ont permis le développement de grammaires nominales et verbales avec peu de lexique et au comportement ambigu connu : cette ambigui͏̈té avoisine deux interprétations par mot. Un analyseur de mots-outils ou tokens complète ces outils qui utilise un contexte court pour leur désambigui͏̈sation. L'emploi de paires de tokens, lexicalisées ou catégorisées, permettent entre autres méthodes un taux de détection élevé. Une étude de faisabilité conclue ce travail par l'analyse la détectabilité d'un système de marques minimales, telles la présence de phrases nominales, des khabars et des mubtada's, de phrases verbales, subordonnées et relatives, points de passage de toute analyse de la phrase complexe. Des procédures linéaires sont proposées pour leur détection, dans le cadre de la construction du moniteur morpho-syntaxique. Cette étude démontre la fécondité de la méthode minimale et sa validité pour diverses applications, mais aussi ses faiblesses

  • Titre traduit

    Strategies and minimal rules for an automatic processing of Arabic


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 2 vol. (433 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. ff. 416-421

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université d'Aix-Marseille (Aix-en-Provence). Service commun de la documentation. Bibliothèque universitaire de lettres et sciences humaines (Fenouillères).
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2001AIX10040
  • Bibliothèque : Bibliothèque universitaire Lettres et Sciences humaines (Montpellier).
  • Non disponible pour le PEB
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.