Reconnaissance de texte dans les images et les vidéos en utilisant les réseaux de neurones à convolutions

par Zohra Saidane

Thèse de doctorat en Signal et images

Sous la direction de Jean-Luc Dugelay.

Soutenue en 2008

à Paris, ENST .


  • Résumé

    Grâce à des moyens de stockage de plus en plus puissants, les ressources multimédia sont devenues de nos jours des ressources incontournables, aussi bien dans le domaine de l’information et de l’audiovisuel (agences de presse, INA), que de la culture (musées), des transports (surveillance), de l’environnement (images satellitaires), ou de l’imagerie médicale (dossiers médicaux en milieux hospitaliers). Ainsi, le défi est-il de comment trouver rapidement l’information pertinente. Par conséquent, la recherche en multimédia est de plus en plus concentrée sur l’indexation et la récupération de l’information. Pour accomplir cette tâche, le texte inclus dans les images et les vidéos peut -être un élément clé pour l’indexation. Les défis de la reconnaissance du texte dans les images et les vidéos sont nombreux : mauvaise résolution, caractères de tailles différentes, artéfacts dus à la compression et aux effets d’anti-recouvrement, arrière plan complexe et variable. Il y a quatre étapes pour la reconnaissance du texte: (1) détection de la présence du texte, (2) localisation de la région du texte, (3) extraction et amélioration du texte, et finalement (4) la reconnaissance du contenu du texte. Dans ce travail nous nous concentrerons sur cette dernière étape et supposerons donc que la zone de texte a été détectée, localisée et extraite correctement. Ce module de reconnaissance peut être aussi divisé en quelques sous-modules tel que : un module de binarisation de texte, un module de segmentation de texte et un module de reconnaissance de caractères. Nous nous sommes intéressés aux réseaux de neurones à convolutions. Ce sont des réseaux de neurones dont la topologie est similaire à celle du cortex visuel des mammifères. Les réseaux de neurones à convolutions ont été initialement utilisés pour la reconnaissance de chiffres manuscrits. Ils ont ensuite été appliqués avec succés à de nombreux problèmes de reconnaissance de forme. Nous proposons dans cette thèse la conception d’une nouvelle méthode de binarisation d’image de texte, la conception d’une nouvelle méthode de segmentation d’images de texte, l’étude d’un réseau de neurones à convolutions pour la reconnaissance d images de caractères, une discussion sur la pertinence de l’étape de binarisation pour la reconnaissance de texte dans les images basée sur des méthodes d apprentissage automatique, et la conception d’une nouvelle méthode de reconnaissance de texte dans les images basée sur la théorie des graphes.

  • Titre traduit

    Image and video text recognition using convolutional neural networks


  • Résumé

    Thanks to increasingly powerful storage media, multimedia resources have become nowadays essential resources, in the field of information and broadcasting (News Agency, INA), culture (museums), transport (monitoring), environment (satellite images), or medical imaging (medical records in hospitals). Thus, the challenge is how to quickly find relevant information. Therefore, research in multimedia is increasingly focused on indexing and retrieval techniques. To accomplish this task, the text within images and videos can be a relevant key. The challenges of recognizing text in images and videos are many: poor resolution, characters of different sizes, artifacts due to compression and effects of anti-recovery, very complex and variable background. There are four steps for the recognition of the text: (1) detecting the presence of the text, (2) localizing of the text, (3) extracting and enhancing the text area, and finally (4) recognizing the content of the text. In this work we will focus on this last step and we assume that the text box has been detected, located and retrieved correctly. This recognition module can also be divided into several sub-modules such as a binarization module, a text segmentation module, a character recognition module. We focused on a particular machine learning algorithm called convolutional neural networks (CNNs). These are networks of neurons whose topology is similar to the mammalian visual cortex. CNNs were initially used for recognition of handwritten digits. They were then applied successfully on many problems of pattern recognition. We propose in this thesis a new method of binarization of text images, a new method for segmentation of text images, the study of a convolutional neural network for character recognition in images, a discussion on the relevance of the binarization step in the recognition of text in images based on machine learning methods, and a new method of text recognition in images based on graph theory.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XXVII-145 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 101 réf. bibliogr. Résumé en anglais. Résumé étendu en français

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.345 SAID
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.