Analysis and retrieval of historical documents images

par Khurram Khurshid

Thèse de doctorat en Informatique. Traitement des images

Sous la direction de Nicole Vincent.

Soutenue en 2009

à Paris 5 .

  • Titre traduit

    Recherche des mots dans les images de documents


  • Résumé

    Le Word Spotting est une alternative relativement nouvelle pour la recherche d'information dans les images de documents anciens. Le Word Spotting consiste à formuler un requête sous forme d'une image de mot pour rechercher toutes les images de documents ou les passages contenant des mots similaires à la requête donnée. Des recherches ont déjà été menées dans ce domaine et différentes méthodes ont été proposées pour un Word Spotting efficace, mais il y a toujours une certaine marge d'erreur et la possibilité d'amélioration. En outre, le Word Spotting requiert le choix d'une image comme mot de requête ce qui peut poser problème pour les utilisateurs qui préféreront formuler leur reque��te en tapant une suite de caractères. Il est ainsi plus réaliste de proposer du Word Spotting à partir de requêtes ACSII. Notre principale motivation dans la recherche menée et l'objectif visé était de proposer un système de recherche d'informations efficace qui pourrait fonctionner avec de bonnes performances en reconnaissance pour de grands volumes d'images de documents imprimés et la possibilité de formuler les requêtes sous forme d'image de mot ou de texte ASCII ainsi que de rechercher des mots dans des régions d'intérêt définies au préalable.


  • Résumé

    Word spotting is a relatively new alternative for information retrieval in ancient document images. Word spotting means matching a query word image with all the words in the documents and retrieve all the document images or passages containing similar words to the given query. Research has been going on in this field for some time now and already different methods have been proposed for efficient word spotting but there is always some room for improvement. Moreover, mostly the word spotting methods require a word image as query which is rather difficult for the users as giving an ASCII query is always more feasible and easy. Main motivation and aim for us behind this research was to propose an efficient information retrieval system that could work efficiently with good precision rates for huge volumes of printed document images with word image or ASCII text queries to search information in text areas which we call as regions of interest (ROI).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (181 p.)
  • Annexes : Bibliogr. p.171-179

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Descartes-Bibliothèque Saints-Pères Sciences (Paris). Service commun de la documentation. Bibliothèque Saints-Pères Sciences.
  • Consultable sur place dans l'établissement demandeur
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.