Contribution à la reconnaissance des structures des documents écrits : approche probabiliste

par Souad Souafi-Bensafi

Thèse de doctorat en Informatique. Documents multimédias, images et systèmes d'information communicants

Sous la direction de Marc Parizeau et de Hubert Emptoz.


  • Résumé

    Cette thèse porte sur la rétroconversion de documents dits à "typographie riche et récurrent" en se basant sur des marquages typographiques à extraire dans les images de ces documents. Notre objectif était de concevoir un système de reconnaissance de structures qui soit capable de s'adapter aux difficultés dues à la complexité et la variabilité de ces documents. Nous avons développé une approche hybride (structurelle et probabiliste) combinant un réseau bayésien classifieur et un automate probabiliste intégrés dans une représentation arborescente hiérarchique de la structure logique. Nous avons procédé par apprentissage supervisé, et dans ce cadre, nous avons utilisé la programmation génétique. Nous avons expérimenté notre approche sur des sommaires de revues et de périodiques et les résultats obtenus peuvent être qualifiés de satisfaisants. Cette expérimentation a permis de confirmer les potentiels d'interactivité entre les différentes composantes du système de reconnaissance proposé.

  • Titre traduit

    = Contribution to document structure recognition : a probabilistic approach


  • Résumé

    This thesis turns on reserve-engineering of documents "recurrent and rich in typography" which is based on typographical tags to be identified directly from document images. Our purpose is to conceive a recognition system for logical structures that has to fit the problems brought by these documents complexity and variability. An original hybrid (structural and probabilistic) approach is proposed which combines a bayesian network classifier and a probabilistic automata that are integrated into a tree hierarchical representation of logical structure. For each part of the model, we used supervised learning that includes a new method using genetic programming for bayesian networks learning. This approach has been applied to tables of contents in periodical documents and has provided interesting results that open up different perspectives and especially for developing the interactivity aspect between the recognition system components.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol.(194 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.187-194

Où se trouve cette thèse ?

  • Bibliothèque :
  • Disponible pour le PEB
  • Cote : C.83(2612)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.