Thèse soutenue

Vers un système de construction automatique de modèles génériques de structures de documents
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Oluwatoyin Tunde Akindele
Direction : Abdelwaheb Belaïd
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1995
Etablissement(s) : Nancy 1
Partenaire(s) de recherche : autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques

Résumé

FR

Cette thèse traite de l'apprentissage des modèles génériques de structures de documents. L’intérêt du système conçu et développé est double: il permet de simplifier la tâche de construction manuelle du modèle souvent pénible et de contrôler les connaissances a priori données au modèle. Un travail préliminaire sur l'analyse de documents consistait en l'étude des différents formalismes existant pour représenter les structures de documents. En se basant sur le formalisme ODA, nous avons défini un modèle de structures adapté à la lecture optique de documents. Étant donne que l'architecture du modèle est arborescente, nous nous sommes dirigés naturellement vers les méthodes d'inférence de grammaires d'arbres. Chaque document est segmenté puis représenté par une structure spécifique. Afin de contrôler ce processus (ne pas altérer la structure par celles de mauvais échantillons) et d'introduire la structure logique, un modèle de base est d'abord construit à partir de quelques échantillons de documents et avec toute la vaillance de l'utilisateur. À l'étape d'inférence, la structure spécifique de chaque échantillon est d'abord comparée au modèle de base. Puis, en cas de validité, elle est utilisée pour l'inférence du modèle générique. Cette inférence est effectuée par la méthode d'inférence de grammaires d'arbres. Une dernière étape de réduction est utilisée pour éliminer les répétitions et les redondances. Le résultat de ce système est un ensemble de règles décrivant le modèle générique de la classe de documents à laquelle appartiennent les échantillons utilisés pour l'apprentissage. Le système a été testé sur une base complète de documents correspondant aux pages de titre des articles des actes des conférences ICPR (International Conference On Pattern Recognition) et les résultats sont concluants