From Time series signal matching to word spotting in multilingual historical document images

par Tanmoy Mondal

Thèse de doctorat en Informatique

Sous la direction de Jean-Yves Ramel, Nicolas Ragot et de Umapada Pal.

Le président du jury était Basilis Gatos.

Les rapporteurs étaient Nicole Vincent, Véronique Eglin.

  • Titre traduit

    De la mise en correspondance de séries temporelles au word spotting dans les images de documents historiques multilingues


  • Résumé

    Cette thèse traite dela mise en correspondance de séquences appliquée au word spotting (localisation de motsclés dans des images de documents sans en interpréter le contenu). De nombreux algorithmes existent mais très peu d’entre eux ont été évalués dans ce contexte. Nous commençons donc par une étude comparative de ces méthodes sur plusieurs bases d’images de documents historiques. Nous proposons ensuite un nouvel algorithme réunissant la plupart des possibilités offertes séparément dans les autres algorithmes. Ainsi, le FSM (Flexible Sequence Matching) permet de réaliser des correspondances multiples sans considérer des éléments bruités dans la séquence cible, qu’ils se situent au début, à la fin ou bien au coeur de la correspondance. Nous étendons ensuite ces possibilités à la séquence requête en définissant un nouvel algorithme (ESC : Examplary Sequence Cardinality). Finalement, nous proposons une méthode d’appariement alternative utilisant une mise en correspondance inexacte de chaines de codes (shape code) décrivant les mots.


  • Résumé

    This thesis deals with sequence matching techniques, applied to word spotting (locating keywords in document images without interpreting the content). Several sequence matching techniques exist in the literature but very few of them have been evaluated in the context of word spotting. This thesis begins by a comparative study of these methods for word spotting on several datasets of historical images. After analyzing these approaches, we then propose a new algorithm, called as Flexible Sequence Matching (FSM) which combines most of the advantages offered separately by several other previously explored sequence matching algorithms. Thus, FSM is able to skip outliers from target sequence, which can be present at the beginning, at the end or in the middle of the target sequence. Moreover it can perform one-to-one, one-to-many and many-to-one correspondences between query and target sequence without considering noisy elements in the target sequence. We then also extend these characteristics to the query sequence by defining a new algorithm (ESC : Examplary Sequence Cardinality). Finally, we propose an alternative word matching technique by using an inexact chain codes (shape code), describing the words.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Tours. Service commun de la documentation. Bibliothèque de ressources en ligne.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.