Numérisation et exploration des manuscrits médiévaux

par Yann Leydier

Thèse de doctorat en Informatique

Sous la direction de Hubert Emptoz.

Soutenue en 2006

à Villeurbanne, INSA .


  • Résumé

    Cette thèse s'attache à l'étude des images de manuscrits médiévaux numérisés. C'est l'une des premières thèses dédiées aux développements de méthodes informatiques spécifiques aux corpus médiévaux. Elle comporte 3 parties. Dans la première nous avons étudié les manuscrits du Moyen Age par rapport à l'ensemble du patrimoine écrit. Les caractères très particuliers de ces documents font que les algoruthmes de traitement et d'analyse de documents développés jusqu'à présent pour des documents imprimés ou les manuscrits plus récents sont inopérantes et que, pour les explorer, nous devons créer des méthodes adaptées à leur complexité et leur variabilité, tant au niveau des formes que des contenus. Dans le seconde partie nous nous sommes attachés à analyser la structure des documents à travers la couleur et la mise en page. Dans le seconde partie nous nous sommes attachés à analyser la structure des docuemnts à travers la couleur et la mise en page. Afin de résoudre de nombreux problèmes concrets telles que la séparation recto / verso, l'analyse des couleurs ou la binarisation, nous avons élaboré une méthode de segmentation couleur particulièrement adaptative et appropriée aux images de documents anciens. Dans l'optique de faciliter l'indexation des manuscrits médiévaux et de les caractériser, nous avons ensuite proposé une technique de segmentation des colonnes et comptage des lignes adaptée à notre corpus. Dans la troisième partie, nous nous sommes intéressés à l'accès au contenu. Les méthodes de reconnaissance optique développées pour les documents récents ne pouvant être utilisées ou adaptées, nous avons proposé une "alternative" rendant possible l'exploration du contenu. Notre solution permet de retrouver toutes les occurences d'un mot sélectionné par l'opérateur à l'intérieur d'un manuscrit. Celle-ci s'appuie sur la similarité des formes des mots. Pour cela, nous avons développé une méthode de comparaison souple mais cohésive

  • Titre traduit

    Digitisation and exploration of medieval manuscripts


  • Résumé

    This thesis turns on the study of digitised medieval manuscripts images. It is one of the first thesis dedicated to the development of software specific to a medieval corpus. This thesis contains three parts. In the first part we situated the medieval manuscripts in the whole written patrimony. The most particular characteristics of these documents make the documents analysis algorithms created so far for printed documents and modern manuscripts fail. In order to explore them we have to create methods that are adapted to their complexity and variability in terms of shapes as well as of contents. In the second part we analysed the structure of the documents through their colours and layout. In order to resolve multiple actual problems, such as recto/verso segmentation, colour analysis or binarisation, we created a highly adaptive colour segmentation algorithm that is fitted to ancient documents processing. Then, in the perspective of easing the indexation and characterisation of the medieval manuscripts, we proposed a column segmentation and line counting technique that fits our corpus. In the third part we interested in contents access. As the optical recognition algorithms developed for modern documents cannot be used nor adapted, we proposed an alternative method making it possible to explore ancient documents’ contents. Our solution allow to retrieve all the occurrences of a word selected by the operator within a manuscript. It leans on the similarity of the words’ shapes. To do that, we developed a matching method that is supple but cohesive.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IV-188 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 183-188

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3115)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.