Thèse soutenue

Reconnaissance de l'écriture chinoise multifonte par une méthode mixte

FR  |  
EN
Auteur / Autrice : Shusheng Zhang
Direction : Alain Faure
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1991
Etablissement(s) : Le Havre

Mots clés

FR

Résumé

FR

La reconnaissance de l'écriture chinoise imprimée monopolice est un sujet très exploré depuis une trentaine années. Plusieurs difficultés s'y concentrent : une base de données volumineuse, un graphisme complexe du caractère individuel, et certains groupes de caractères très semblables. Cependant, en matière de reconnaissance des caractères chinois multifontes, les études sont rares et les résultats imparfaits. Nous proposons et étudions une nouvelle méthode mixte de reconnaissance des caractères chinois multifonte. La méthode repose sur une description du caractère par un nuage des points caractéristiques (nœuds et extrémités) dont les attributs mixtes sont : l'ordre de multiplicité (indice structurel local), et les coordonnées spatiales (paramètres géométriques). Un nouvel indice structurel, robuste, somme des indices locaux est utilisé comme critère de classification. Les algorithmes de prétraitement (lissage et squelettisation) sont soigneusement choisis de façon à assurer la constance de l'indice, et nous utilisons notamment un ébarbage sélectif inédit. A l'intérieur d'une classe, afin de comparer deux nuages de points non ordonnés qui décrivent le caractère saisi et chaque modelé, on procède à un appariement par une heuristique rapide et efficace (lors de la phase d'apprentissage, la mise en correspondance est optimale en appliquant l'algorithme hongrois. Le modelé retenu est une moyenne des modelés monopolice). Une fonction de similitude, qui décroit avec les distances, est définie ; elle tient compte de la dispersion des modèles (cas multifonte) et de la dispersion des points caractéristiques du caractère saisi. Enfin, une caractéristique supplémentaire de périphérie est introduite dans le but d'affiner la décision finale. Les expériences effectuées sur une base de données de mille caractères environ par police ont montré un taux de reconnaissance de 98% pour le cas monofonte, et de 96% pour le cas multifonte