Etiquetage grammatical de l'arabe voyelle ou non

par EMNA SOUISSI

Thèse de doctorat en Sciences appliquées

Sous la direction de Fathi Debili.

Soutenue en 1997

à Paris 7 .

    mots clés mots clés


  • Résumé

    Nous abordons le probleme de l'etiquetage grammatical de l'arabe en reprenant les methodes couramment utilisees, lesquelles sont fondees sur des regles de succession de deux ou trois categories grammaticales. Nous montrons que l'on ne peut pas reprendre tels quels les algorithmes preconises pour le francais ou pour l'anglais, la raison etant que l'arabe pose deux problemes : l'absence des voyelles et l'agglutination des enclinomenes. Ceux-ci induisent une combinatoire qui conduit a reecrire partiellement ces algorithmes. Rappelons que la resolution des ambiguites grammaticales est effectuee en passant par plusieurs etapes (analyse morphologique, reconnaissance des locutions et etiquetage grammatical), chaque etape amenant sa contribution dans le processus general. Les resultats obtenus pour l'arabe voyelle sont comparables a ce que l'on obtient pour le francais ou pour l'anglais. Pour l'arabe non voyelle par contre, les performances chutent assez sensiblement. L'explication reside precisement dans l'absence des voyellations et l'agglutination qui conduisent a une surmultiplication de l'ambiguite grammaticale de depart. Pour ameliorer ces resultats nous definissons un nouveau jeu de categories grammaticales qui amene a une diminution de l'ambiguite de depart et a un elargissement de la portee des regles de succession. Ces categories sont associees aux formes non-minimales de l'arabe telles que l'on peut les rencontrer dans les textes. Il y a dans ce cas une amelioration sensible. Dans la derniere partie de ce travail, nous avons tente d'utiliser les resultats obtenus en matiere d'etiquetage pour a la fois mettre en oeuvre une application concrete, et valider quelque peu l'etiqueteur lui-meme. Le champ d'application choisi fut celui de l'indexation automatique de textes arabes. En conclusion, nous montrons les limites de nos solutions d'abord, et les directions experimentales susceptibles de produire mieu


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 287 P.
  • Annexes : 73 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Accessible pour le PEB
  • Cote : TS1997
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.