Thèse soutenue

Conception d'un langage de description de strutures tabulaires et du système de reconnaissance associé : Application aux tableaux dans les documents d'archives

FR  |  
EN
Auteur / Autrice : Isaac Martinat
Direction : Jean Camillerapp
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Rennes, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes)

Résumé

FR  |  
EN

De nos jours une numérisation en masse de documents permet une large diffusion de ceux-ci. Pour faciliter l’accès aux informations contenues dans certains de ces documents, nous nous intéressons à la reconnaissance d’une classe de documents structurés, les tableaux. Cette thèse présente un langage de description de tableaux associé à un système de reconnaissance. Ce langage simple et intuitif permet de décrire des descriptions de structures tabulaires complexes et variables ainsi que des descriptions plus précises. Celles-ci permettent à l’analyseur de compenser les informations manquantes et d’absorber le bruit Pour concevoir l’analyseur et l’utilisation des informations des descriptions, nous proposons une représentation interne et introduisons le concept d’intersections finales. Celles-ci aident à caractériser la structure des tableaux. Pour valider notre système, nous présentons des résultats sur des structures de tableaux très variées et sur plus de 50 000 documents d’archives.