Thèse soutenue

La conception et la réalisation d'un système d'analyse morpho-syntaxique robuste pour l'arabe : utilisation pour la détection et le diagnostic des fautes d'accord

FR  |  
EN
Auteur / Autrice : Riadh Ouersighni
Direction : Mohamed HassounJoseph Dichy
Type : Thèse de doctorat
Discipline(s) : Sciences de l'information et de la communication
Date : Soutenance en 2002
Etablissement(s) : Lyon 2

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Cette thèse s'inscrit dans le cadre du traitement automatique du langage naturel (TALN). Elle concerne la conception et la réalisation effective d'un noyau d système d'analyse morpho-syntaxique robuste de l'arabe de grandeur réelle, qui puisse être utilisé dans les applications à grande échelle. Baptisé AraParse (Arabic Parser). AraParse est basé sur des ressources linguistiques (lexiques et grammaires) à large couverture et permet de traiter de l'arabe voyellé, non-voyellé ou partiellement voyellé. La thèse présente tout d'abord les problèmes posés par l'analyse morphologique, l'analyse syntaxique et l'intégration de ces deux types d'analyse dans un système opérationnel. Le système réalisé, baptisé AraParse, conçu suivant une architecture modulaire, permet un traitement des textes arabes voyellés, non voyellés et partiellement voyellés et utilise des ressources linguistiques (lexiques et grammaires) à large couverture. Nous aborderons ensuite le problème de la robustesse du système. La robustesse caractérise la capacité de l'analyseur à produire un résultat satisfaisant même devant une situation inattendue. Nous avons adopté une démarche tolérante basée sur la distinction entre le noyau et la périphérie de la grammaire. Le noyau décrit des propriétés essentielles de la langue. La périphérie englobe l'ensemble des phénomènes extra-linguistiques. Notre objectif est aussi de concevoir un système qui peut être réutilisé dans d'autre application. La vérification grammaticale en est une. Le système AraCheck, directement déduit de AraParse permet la détection et le diagnostic des fautes d'accord en arabe. Il est basé sur une approche tolérante par une analyse complète en un seul passage, par relâchement de contrainte au niveau des règles de contrôle de la grammaire