Cursive Bengali Script Recognition for Indian Postal Automation

par Szilárd Vajda

Thèse de doctorat en Informatique

Sous la direction de Abdelwaheb Belaïd.

Soutenue le 12-11-2008

à Nancy 1 , dans le cadre de IAEM Lorraine , en partenariat avec LORIA (laboratoire) .

Le président du jury était Thierry Paquet.

Le jury était composé de Thierry Paquet, Jean-Marc Ogier, Laurence Likforman-Sulem, René Schott, Abdel Belaïd, Christophe Choisy.

Les rapporteurs étaient Jean-Marc Ogier, Laurence Likforman-Sulem.

  • Titre traduit

    Reconnaissance de l'écriture manuscrite cursive Bengali pour l'automatisation de la Poste Indienne


  • Résumé

    Les grandes variations de style de l'écriture et les difficultés de segmenter les mots cursifs sont les raisons principales pour laquelle la reconnaissance de mots cursive manuscrite pour être une tâche si difficile. Un système de lecture des documents postaux indien basé sur le modèle stochastique basé d'un contexte sans segmentation est présenté. L'originalité du travail réside sur une combinaison de caractéristiques conceptuelles à haut niveau avec les renseignements de pixel à basse altitude considérés par ancien modèle et une stratégie d' arrêt dans l'algorithme Viterbi. Pendant que l'information de bas niveau peut être facilement extraite de la forme analysée, le pouvoir discriminatoire de telle information a des limites, car il décrit la forme avec moins de précision. Pour cette raison, nous avons considéré dans le cadre d'une approche analytique, utilisant une segmentation implicite, d'implanter de la haute information an le réduisant à un niveau plus bas. Cet enrichissement peut être perçu comme un poids au niveau de pixel, donnant une importance à chaque pixel analysé fondé sur leurs propriétés conceptuelles. Le défi est de combiner les types différents des caractéristiques considérant une certaine dépendance entre eux. Pour réduire le temps de décodage dans la recherche de Viterbi, un mécanisme de seuil cumulatif est proposé dans une représentation de vocabulaire plate. Au lieu de l'utilisation d'une représentation de trie où les parties de préfixe communes sont partagées nous proposons un mécanisme de seuil dans le vocabulaire plat où basé juste sur une analyse de Viterbi partielle, nous pouvons élaguer un modèle et arrêtons le traitant plus. Les seuils cumulatifs sont fondés sur les scores correspondants prémédités à chaque niveau de lettre, permettant une certaine dynamique et élasticité au modèle. Comme nous sommes intéressés dans un système de reconnaissance d'adresses postaux complet, nous avons convergé aussi notre attention sur la reconnaissance des chiffres, proposant différent solutions neuronaux et stochastiques. Pour augmenter la précision et la robustesse des classifieur, un stratégie de combinaison est aussi proposé. Les résultats obtenu sur des bases différent écrit en latin et bengali ont montré l'intérêt de la méthode. Le module de reconnaissance développé sera intégré dans un système générique pour l'automation de trie postale indienne.


  • Résumé

    Large variations in writing styles and difficulties in segmenting cursive words are the main reasons for handwritten cursive words recognition for being such a challenging task. An Indian postal document reading system based on a segmentation-free context based stochastic model is presented. The originality of the work resides on a combination of high-level perceptual features with the low-level pixel information considered by the former model and a pruning strategy in the Viterbi decoding to reduce the recognition time. While the low-level information can be easily extracted from the analyzed form, the discriminative power of such information has some limits as describes the shape with less precision. For that reason, we have considered in the framework of an analytical approach, using an implicit segmentation, the implant of high-level information reduced to a lower level. This enrichment can be perceived as a weight at pixel level, assigning an importance to each analyzed pixel based on their perceptual properties. The challenge is to combine the different type of features considering a certain dependence between them. To reduce the decoding time in the Viterbi search, a cumulative threshold mechanism is proposed in a flat lexicon representation. Instead of using a trie representation where the common prefix parts are shared we propose a threshold mechanism in the flat lexicon where based just on a partial Viterbi analysis, we can prune a model and stop the further processing. The cumulative thresholds are based on matching scores calculated at each letter level, allowing a certain dynamic and elasticity to the model. As we are interested in a complete postal address recognition system, we have also focused our attention on digit recognition, proposing different neural and stochastic solutions. To increase the accuracy and robustness of the classifiers a combination scheme is also proposed. The results obtained on different datasets written on Latin and Bengali scripts have shown the interest of the method and the recognition module developed will be integrated in a generic system for the Indian postal automation.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.