Reconnaissance hors ligne de mots manuscrits cursifs par l'utilisation de systèmes hybrides et de techniques d'apprentissage automatique

par Rami Al Hajj Mohamad

Thèse de doctorat en Signal et images

Sous la direction de Laurence Likforman-Sulem et de Chafic Mokbel.

Soutenue en 2007

à Paris, ENST .


  • Résumé

    La reconnaissance automatique hors ligne des mots écrits permet d'améliorer l'interaction entre l'homme et la machine dans beaucoup d'applications notamment la bureautique et les tâches de traitement automatique de documents telles que le tri automatique du courrier, l'enregistrement et la vérification des chèques bancaires. La reconnaissance hors ligne des mots manuscrits cursifs, tels que ceux écrits en arabe, reste toujours un problème ouvert. Les difficultés inhérentes à la reconnaissance sont la normalisation de l'écriture, la segmentation des mots en éléments de base ainsi que la modélisation de ces éléments. Concevoir un système pour la reconnaissance automatique hors ligne des mots manuscrits est l'objectif des travaux de recherche de cette thèse. L'approche proposée est de type analytique, sans segmentation explicite des mots en ses caractères constituants, et est basée sur une modélisation stochastique de type MMC (Modèles de Markov Cachés). La méthode adoptée est à deux étapes : une étape de reconnaissance dans laquelle différents types de caractéristiques sont examinés, et une étape pour la combinaison des classifieurs en post-traitement dans laquelle différentes stratégies de combinaison sont appliquées. Les classifieurs combinés en post-traitement prennent en considération les inclinaisons, les positions erronées des marques diacritiques et les chevauchements pouvant exister dans l'écriture manuscrite. Le système de référence basé sur la méthode proposée a montré de trés bonnes performances à la compétition organisée à ICDAR 05, où des systèmes à l'état de l'art ont été comparés et examinés sur la base de référence IFN/ENIT.

  • Titre traduit

    Off-line recognition of cursive handwritten words by using hybrid systems and automatic learning techniques


  • Résumé

    The automatic offline recognition of handwritten words improves human-machine interaction. It is already used in many business office applications dealing with the automatic processing of documents such as automatic post sorting, and the verification and recognition of bank check amounts. The off line recognition of cursive handwritten words remains an open problem due to difficulties such as :handwriting normalization, word segmentation into compound components and the modeling of these components. The main objective of this thesis, is to propose, design, and implement a system for the automatic offline recognition of Arabic handwritten words. The proposed approach is analytical without explicit segmentation of words into compound characters, and it is based on the stochastic HMM approach (Hidden Markov models). The method is composed of two stages : a recognition stage based on different features, and a combination stage of three HMM-based classifiers. Each individual HMM classifier uses a sliding window with a specific inclination. Different combining strategies are tested, among them the Sum rule, the Majority Vote rule and the Borda Count rule. The best combination strategy consists of using a neural network-based combining classifier. The combination of these classifiers can better cope with the writing inclination, the erroneous positions of diacritical marks and points, and the overlapping of consecutive characters in handwritten words. The reference system based on the proposed method has shown best performance at the competition organized at ICDAR 2005, where a set of state-of art systems were compared and tested on the IFN/ENIT benchmark database.

Autre version

Cette thèse a donné lieu à une publication en 2008 par École nationale supérieure des télécommunications à Paris

Reconnaissance hors ligne de mots manuscrits cursifs par l'utilisation de systèmes hybrides et de techniques d'apprentissage automatique


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (162 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 118 réf. bibliogr. Résumé en français

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.311 AL HAJ
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2008 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Reconnaissance hors ligne de mots manuscrits cursifs par l'utilisation de systèmes hybrides et de techniques d'apprentissage automatique
  • Dans la collection : ENST , 2007E020 , 0751-1353
  • Détails : 1 vol. (162 p.)
  • Annexes : Bibliogr. p. 153-162. Résumé en français
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.