Thèse soutenue

FR
Auteur / Autrice : Christian Gaubert
Direction : Claude-France Audebert
Type : Thèse de doctorat
Discipline(s) : Mondes africains, arabes et turcs
Date : Soutenance en 2001
Etablissement(s) : Aix-Marseille 1

Mots clés

FR

Résumé

FR

La théorie de la minimalité dans le traitement automatique de l'arabe développée depuis 1985 par Audebert et Jaccarini est exposée dans ses grands principes, qui visent la construction d'un moniteur morpho-syntaxique : une analyse morphologique sans lexique effectuée par des automates augmentés et reflétant un compromis entre les phénomènes de concaténation et le croisement entre racines et schèmes, le rôle syntaxique central des invariants de la morphologie qui sont des tokens syntaxiques, et la description de ce rôle par des automates variables. Un logiciel écrit en C, Sarfiyya, a été créé pour poursuivre ce travail théorique et le confronter à la réalité de corpus de textes informatisés de presse et de littérature. Il repose sur un système original d'étiquettes floues privilégiant la détermination pour le nom, le mode/aspect pour le verbe, la famille syntaxique pour les tokens. Un éditeur graphique et interactif d'automates, un analyseur d'automates augmentés par des micro-lexiques et d'autres fonctions de Sarfiyya ont permis le développement de grammaires nominales et verbales avec peu de lexique et au comportement ambigu connu : cette ambigui͏̈té avoisine deux interprétations par mot. Un analyseur de mots-outils ou tokens complète ces outils qui utilise un contexte court pour leur désambigui͏̈sation. L'emploi de paires de tokens, lexicalisées ou catégorisées, permettent entre autres méthodes un taux de détection élevé. Une étude de faisabilité conclue ce travail par l'analyse la détectabilité d'un système de marques minimales, telles la présence de phrases nominales, des khabars et des mubtada's, de phrases verbales, subordonnées et relatives, points de passage de toute analyse de la phrase complexe. Des procédures linéaires sont proposées pour leur détection, dans le cadre de la construction du moniteur morpho-syntaxique. Cette étude démontre la fécondité de la méthode minimale et sa validité pour diverses applications, mais aussi ses faiblesses