Thèse soutenue

Identification et analyse de textes arabes par approche affixale

FR  |  
EN
Auteur / Autrice : Slim Kanoun
Direction : Yves Lecourtier
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées. Informatique, automatique, systèmes
Date : Soutenance en 2002
Etablissement(s) : Rouen

Résumé

FR  |  
EN

Les travaux présentés dans ce mémoire abordent les problèmes liés à la différenciation et la reconnaissance de textes en mode hors-ligne dans des documents multilingues arabe et latin. La première partie de ces travaux concerne une méthode de différenciation entre les textes arabes et les textes latins dans les deux natures imprimée et manuscrite. La deuxième partie propose une nouvelle approche, appelée approche affixale, pour la reconnaissance de mots et l'analyse de textes arabes. Cette approche se distingue par la modélisation d'entités morphosyntaxiques (morphèmes de base du mot) en intégrant les aspects morpho-phonologiques du vocabulaire arabe dans le processus de reconnaissance par rapport aux approches classiques qui procèdent par la modélisation d'entités graphiques (mot, lettre, pseudo mot). Les tests réalisés montrent bien l'apport de l'approche au niveau de la simplification de la reconnaissance et la caractérisation morphosyntaxique des mots dans un texte arabe.