Thèse soutenue

Avancées en Reconnaissance Optique des Caractères pour les Documents Arabes Historiques

FR  |  
EN
Auteur / Autrice : Benjamin Kiessling
Direction : Marc Bui
Type : Thèse de doctorat
Discipline(s) : Informatique, mathématique et applications
Date : Soutenance le 13/04/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale de l'École pratique des hautes études (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire Cognitions humaine et artificielle (Aubervilliers, Seine-Saint-Denis) - Cognitions Humaine et ARTificielle / CHART
Établissement de préparation de la thèse : École pratique des hautes études (Paris ; 1868-....)
Jury : Président / Présidente : Peter A. Stokes
Examinateurs / Examinatrices : Marc Bui, Peter A. Stokes, Nachum Dershowitz, Gregory Crane, Alicia Fornés, Daniel Stökl Ben Ezra
Rapporteurs / Rapporteuses : Nachum Dershowitz, Gregory Crane

Résumé

FR  |  
EN

La transcription automatique de textes dans les documents historiques manuscrits et imprimés est devenue un processus établi dans les humanités numériques, son utilisation allant des archives ou des bibliothèques à grande échelle aux groupes de recherche et aux chercheurs individuels. Bien que des progrès considérables aient été réalisés ces dernières années pour comprendre les limites et faire progresser l'état de l'art, ces recherches restent largement limitées aux documents écrits dans les systèmes d'écriture européens, et plus particulièrement à l'écriture latine. L'une des cultures littéraires les plus vastes et les plus diverses, largement ignorée par les recherches actuelles sur l'analyse d'images de documents, est l'écriture arabe. Cette thèse contient une étude compréhensive sur les caractéristiques des documents en écriture arabe et les défis qu'ils posent aux systèmes de reconnaissance optique de caractères de pointe, à travers une analyse théorique de l'écriture arabe et deux études de cas de rétro-numérisation sur des documents imprimés classiques et modernes. Les principales limites des méthodes courantes identifiées dans ces études ont ensuite été traitées. Deux méthodes entraînables de segmentation des pages suivant le paradigme de la ligne de base, permettant d'obtenir des résultats comparables à l'état de l'art et comprenant des caractéristiques supplémentaires nécessaires à la segmentation de pages de documents complexes, une méthode simple de traitement des lignes de texte multigraphique et le logiciel ROC flexible Kraken intégrant ces méthodes sont présentés. On montre l'utilité de ce logiciel de ROC non seulement pour la reconnaissance de texte traditionnelle mais aussi pour une nouvelle tâche d’alignement des caractères. En outre, on présente l'environnement de recherche virtuel (ERV) eScriptorium pour l'annotation et la transcription. Cet ERV est spécifiquement conçu pour pouvoir traiter des textes non-latins, dont l'arabe, plus efficacement que les systèmes alternatifs existants. Au cours de ce travail, on a également préparé plusieurs ensembles de données d'entraînement et d'évaluation sous licence ouverte pour la transcription de textes arabes et la segmentation de pages.