Classification of handwritten documents : writer recognition

par Imran-Ahmed Siddiqi

Thèse de doctorat en Informatique

Sous la direction de Nicole Vincent.

Soutenue en 2009

à Paris 5 .

  • Titre traduit

    Classification des écritures manuscrites du point de vue de la reconnaissance de scripteur


  • Résumé

    The problem of identifying the writer of a handwritten document image has been an active research area over the last few years and enjoys applications in forensic and historical document analysis. We have developed an effective method for automatic writer identification and verification from unconstrained handwritten text images. Our method relies on two different aspects of writing: the presence of redundant patterns in the writing and its visual attributes. Based on the hypothesis that handwriting carries certain patterns that an individual would use frequently as he writes, we look to extract these patterns by analyzing small writing fragments and grouping similar patterns into clusters. In fact this corresponds more to the redundancy of writing gestures than writing shapes. These clusters are determined either for each of the writers separately or, for a group of writers generating a universal set of patterns. The writing in question is then compared to the produced clusters. We next exploit two important visual attributes of writing, the orientation and curvature, which enable to distinguish one writing from another. These attributes are extracted by computing a set of features from writing samples at different levels of observation. Two writings are then compared by computing distances between their respective features. Finally, we combine the two facets of handwriting to characterize the writer of a handwritten sample. The proposed methodology, evaluated on modern as well as ancient writings exhibited promising results on tasks of writer recognition and handwriting classification.


  • Résumé

    Malgré les prédictions d'un monde sans papier et le développement des documents électroniques, les documents manuscrits ont gardé leur importance et les problèmes de l'identification et de l'authentification des auteurs ont constitué un domaine de recherche actif au cours de ces dernières années. Nous avons développé une méthode efficace pour la reconnaissance automatique de scripteur à partir des images de texte manuscrit offline. Notre méthode repose sur deux aspects différents de l'écriture, la présence des formes redondantes dans l'écriture et des attributs visuels de l'écriture. En nous basant sur l'hypothèse qu'un individu utilise certaines formes plus fréquemment que les autres quand il écrit, nous espérons extraire ces formes en analysant des petits fragments d'écriture et en regroupant les formes similaires dans des classes. Ces classes sont déterminées soit pour chacun des scripteurs séparément ou pour un groupe de scripteurs générant un ensemble universel de formes. L'écriture en question est ensuite comparée à ces classes de formes produites. Ensuite, nous exploitons les deux importants attributs visuels de l'écriture, l'orientation et la courbure, qui permettent de distinguer une écriture d'une autre. Ces attributs sont extraits par le calcul d'un ensemble de caractéristiques à différents niveaux d'observation. Deux écritures sont ensuite comparées en calculant les distances entre leurs caractéristiques respectives. Enfin, nous combinons les deux facettes de l'écriture pour caractériser le scripteur d'un échantillon manuscrit. En utilisant ces caractéristiques, on obtient des taux d'identification qui sont comparables aux meilleurs résultats rapportés à ce jour pour l'identification de scripteur hors ligne.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (141 p.)
  • Annexes : Notes bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Descartes-Bibliothèque Saints-Pères Sciences (Paris). Service commun de la documentation. Bibliothèque Saints-Pères Sciences.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.