Thèse soutenue

Catégorisation automatique de documents manuscrits : Application aux courriers entrants

FR  |  
EN
Auteur / Autrice : Guillaume Koch
Direction : Thierry Paquet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Rouen

Résumé

FR  |  
EN

Les travaux présentés concernent la spécification, le développement et l’évaluation d’un système de catégorisation de documents manuscrits faiblement contraints tels que des courriers entrants. Nous démontrons qu’un système développé pour la catégorisation de documents électroniques peut être adapté à la catégorisation de documents manuscrits. Afin d’extraire les seuls mots clés nécessaires à la catégorisation, nous avons mis en place un système d’extraction de mots clés dans les documents manuscrits. Ce système d’extraction est appliqué sur chaque ligne de texte et fait appel à un moteur de reconnaissance de mots manuscrits isolés afin de réaliser conjointement la segmentation de mots et leur reconnaissance. L’intégration d’un modèle de rejet dans le système permet de prendre en compte les éléments hors-lexique lors de la reconnaissance de la ligne. Nous démontrons que malgré les performances en extraction de mots clés très en-dessous de celles des OCR, les performances en catégorisation de documents manuscrits ne sont que très peu dégradées.