Champs aléatoires conditionnels pour l'extraction de structures dans les images de documents

par David Hébert

Thèse de doctorat en Sciences appliquées

Sous la direction de Thierry Paquet.


  • Résumé

    Les travaux réalisées dans cette thèse s'inscrivent dans le cadre du développement d'une chaîne d'analyse automatique des archives du "Journal de Rouen", au sein du projet PlaIR (Plateforme d'Indexaion Régionale). Nos travaux s'appuient sur l'exploitation des modèles de champs aléatoires conditionnels (CAC), des modèles graphiques discriminants particulièrement bien adaptés à la tâche d'extraction d'information qui nous intéresse. Dans une première contribution, nous proposons d'adapter ce modèle au cadre de l'analyse d'images où les descripteurs sont numériques. Une stratégie de quantification multi-échelles de descripteurs numériques est proposée afin d'identifier des entités structurantes dans les journaux. Ces entités sont utilisées par une stratégie de reconstruction des articles. Cette contribution a donné lieu à une intégration dans la chaîne de production de documents pour la plateforme d'indexation PlaIR. La seconde contribution exploite le modèle de champ aléatoire conditionnel pour proposer un schéma d'apprentissage générique de combinaison d'experts permettant de réaliser des tâches plus complexes d'extraction d'information dans les images de documents. Un couplage bi-dimensionnel de champs aléatoires conditionnels est proposé. Ce schéma est appliqué avec succès à l'extraction des zones textuelles et graphiques dans des images de documents contemporains ainsi que sur une tâche de binarisation de documents dégradés. Les expériences réalisées montrent que le modèle de couplage bidimensionnel de champs aléatoires conditionnels proposé peut constituer un opérateur de combinaison spatialisée d'experts tout à fait pertinent et générique.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (223 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 141 références

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 13/ROUE/S029
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.