Conception d'un langage de description de strutures tabulaires et du système de reconnaissance associé : Application aux tableaux dans les documents d'archives
Auteur / Autrice : | Isaac Martinat |
Direction : | Jean Camillerapp |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2009 |
Etablissement(s) : | Rennes, INSA |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes) |
Mots clés
Résumé
De nos jours une numérisation en masse de documents permet une large diffusion de ceux-ci. Pour faciliter l’accès aux informations contenues dans certains de ces documents, nous nous intéressons à la reconnaissance d’une classe de documents structurés, les tableaux. Cette thèse présente un langage de description de tableaux associé à un système de reconnaissance. Ce langage simple et intuitif permet de décrire des descriptions de structures tabulaires complexes et variables ainsi que des descriptions plus précises. Celles-ci permettent à l’analyseur de compenser les informations manquantes et d’absorber le bruit Pour concevoir l’analyseur et l’utilisation des informations des descriptions, nous proposons une représentation interne et introduisons le concept d’intersections finales. Celles-ci aident à caractériser la structure des tableaux. Pour valider notre système, nous présentons des résultats sur des structures de tableaux très variées et sur plus de 50 000 documents d’archives.