Catégorisation automatique de documents manuscrits : Application aux courriers entrants
| Auteur / Autrice : | Guillaume Koch |
| Direction : | Thierry Paquet |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance en 2006 |
| Etablissement(s) : | Rouen |
Résumé
Les travaux présentés concernent la spécification, le développement et l’évaluation d’un système de catégorisation de documents manuscrits faiblement contraints tels que des courriers entrants. Nous démontrons qu’un système développé pour la catégorisation de documents électroniques peut être adapté à la catégorisation de documents manuscrits. Afin d’extraire les seuls mots clés nécessaires à la catégorisation, nous avons mis en place un système d’extraction de mots clés dans les documents manuscrits. Ce système d’extraction est appliqué sur chaque ligne de texte et fait appel à un moteur de reconnaissance de mots manuscrits isolés afin de réaliser conjointement la segmentation de mots et leur reconnaissance. L’intégration d’un modèle de rejet dans le système permet de prendre en compte les éléments hors-lexique lors de la reconnaissance de la ligne. Nous démontrons que malgré les performances en extraction de mots clés très en-dessous de celles des OCR, les performances en catégorisation de documents manuscrits ne sont que très peu dégradées.