Vers un système de construction automatique de modèles génériques de structures de documents

par OLUWATOYIN T AKINDELE

Thèse de doctorat en Informatique

Sous la direction de A. BELAID.

Soutenue en 1995

à Nancy 1 .


  • Résumé

    Cette thèse traite de l'apprentissage des modèles génériques de structures de documents. L’intérêt du système conçu et développé est double: il permet de simplifier la tâche de construction manuelle du modèle souvent pénible et de contrôler les connaissances a priori données au modèle. Un travail préliminaire sur l'analyse de documents consistait en l'étude des différents formalismes existant pour représenter les structures de documents. En se basant sur le formalisme ODA, nous avons défini un modèle de structures adapté à la lecture optique de documents. Étant donne que l'architecture du modèle est arborescente, nous nous sommes dirigés naturellement vers les méthodes d'inférence de grammaires d'arbres. Chaque document est segmenté puis représenté par une structure spécifique. Afin de contrôler ce processus (ne pas altérer la structure par celles de mauvais échantillons) et d'introduire la structure logique, un modèle de base est d'abord construit à partir de quelques échantillons de documents et avec toute la vaillance de l'utilisateur. À l'étape d'inférence, la structure spécifique de chaque échantillon est d'abord comparée au modèle de base. Puis, en cas de validité, elle est utilisée pour l'inférence du modèle générique. Cette inférence est effectuée par la méthode d'inférence de grammaires d'arbres. Une dernière étape de réduction est utilisée pour éliminer les répétitions et les redondances. Le résultat de ce système est un ensemble de règles décrivant le modèle générique de la classe de documents à laquelle appartiennent les échantillons utilisés pour l'apprentissage. Le système a été testé sur une base complète de documents correspondant aux pages de titre des articles des actes des conférences ICPR (International Conference On Pattern Recognition) et les résultats sont concluants

  • Titre traduit

    Towards a system for automatic construction of generic models of document structures


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (192 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 130 références

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation et de l'Edition - BU Sciences et Techniques.
  • Accessible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.