Système adaptatif basé sur des techniques d'apprentissage profond pour la détection des documents historiques arabes non identifiés

par Michel Chammas

Projet de thèse en Informatique

Sous la direction de Abdallah Makhoul et de Jacques Demerjian.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; Dijon ; Belfort) , en partenariat avec FEMTO-ST Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (laboratoire) et de DISC - Département Informatique et Systèmes Complexes (equipe de recherche) depuis le 01-02-2019 .


  • Résumé

    L'objectif de cette thèse est de développer un système basé sur l'apprentissage en profondeur adaptatif qui travaille à l'identification de la paternité de documents historiques arabes non identifiés. Cette question a toujours été une limite pour l'étude des textes historiques, où beaucoup de documents manquent d'informations sur leur origine, leur date, leur auteur et leurs caractéristiques paléographiques. Alors que de nombreux chercheurs ont travaillé à résoudre ce problème, de nombreuses ambiguïtés et défis demeurent dans ce domaine. De plus, le manque de jeux de données en arabe a limité la progression des algorithmes de test. En tant que chercheur au Digital Humanities Center de l'Université de Balamand, j'ai remarqué la nécessité de disposer d'un système automatisé capable de détecter ces documents historiques non identifiés.   L'ensemble de données se compose d'un vaste ensemble de documents historiques arabes, de plus de 50 manuscrits appartenant au centre et de centaines importés de différentes régions du Moyen-Orient. Cet énorme corpus est défini par les caractéristiques importantes suivantes: - Un grand volume de patrimoine textuel conservé - Une grande variété de formats de texte - Une longue période couverte (du 9ème au 18ème siècle) - une vaste étendue géographique (du moyen orient et de l'afrique du nord) - Une grande variété de Vorlagen (traductions) Le nombre moyen de pages est d'environ 150 par manuscrit, ce qui représente plusieurs milliers de pages et des centaines d'auteurs. Environ 60 à 65% des documents ont identifié les auteurs et les dates, tandis que 35 à 40% ne sont toujours pas reconnus. Ce rapport est très idéal pour former et tester un algorithme de réseau neuronal profond.

  • Titre traduit

    Adaptive deep learning system for detecting unidentified historical Arabic documents


  • Résumé

    The objective of this thesis is to develop an adaptive deep learning based system that works on identifying the authorship of unidentified historical Arabic documents. This issue has always been a limitation for the study of historicals texts, where lot of documents have a lack of information about their origin, date, authorship and paleographical features. While many researchers worked to solve this issue, a lot of ambiguities and challenges remain in this area. Furthermore, the lack of Arabic datasets has limited the progress of testing algorithms. As a researcher at the Digital Humanities Center in the University of Balamand, I noticed the need to have an automated system that works on detecting those unidentified historical documents. The dataset consists of a large set of historical Arabic documents, more than 50 manuscripts owned by the center and hundreds imported from different areas in the middle east. This huge corpus is defined by the following important features: - A large volume of conserved textual heritage - A wide variety of text format - A broad span of time covered (from 9th to 18th century) - A vast geographic scope (from middle east and north africa) - A wide variety of Vorlagen (translations) The average number of pages is around 150 per manuscripts, which means many thousands pages and hundreds of authors. Around 60 to 65% of the documents have identified authors and dates while 35 to 40% are still unrecognized. This ratio is very ideal to train and test a deep neural network algorithm.