Techniques d'adaptation de modèles markoviens. Application à la reconnaissance de documents anciens

par Kamel Ait-Mohand

Thèse de doctorat en Informatique

Sous la direction de Thierry Paquet.


  • Résumé

    Ce travail s'intéresse à la reconnaissance de caractères dans les documents imprimés. Le but est de créer un OCR suffisamment robuste pour être performant sur les documents anciens dont les particularités les rendent difficiles à traiter par les OCRs. Nous avons créé un système de reconnaissance polyfonte basé sur des modèles de Markov cachés (MMC) et nous l'avons intégré dans une chaîne de traitement OCR complète en utilisant des outils logiciels libres. Afin d'améliorer les performances de ce système sur de nouvelles données, nous avons créé des algorithmes d'adaptation qui modifient conjointement la structure et les probabilités d'émission des MMC. Nous avons évalué le système de reconnaissance polyfonte ainsi que les algorithmes d'adaptation sur des bases d'images réelles et synthétiques. Les résultats obtenus montrent que le système de reconnaissance polyfonte est compétitif comparé aux systèmes d'OCR industriels et que nos algorithmes d'adaptation de la structure devancent nettement les algorithmes d'adaptation de l'état de l'art.

  • Titre traduit

    Markovian models adaptation techniques. Application to ancient documents recognittion


  • Résumé

    This work focuses on the recognition of characters in printed documents. The goal is to create a sufficiently robust OCR system that can deal with ancient documents whose peculiarity makes them difficult to process. We created a polyfont recognition system based on Hidden Markov Models (HMM) and we have integrated it into a complete processing chain using open source OCR tools. To improve the performance of this system on new data, we created new adaptation algorithms that jointly modify the structure and emission probabilities of HMMs. We evaluated the polyfont recognition system and the adaptation algorithms on synthetic and real images datasets. The results show that the polyfont recognition system is competitive compared to commercial OCR systems and that our structure-adaptation algorithms are more efficient than other state of the art adaptation algorithms.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (218p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie p. 201-218

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 11/ROUE/S008
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.