On the use of pattern recognition technique to develop data hiding schemes : application to document security

par Vinh Loc Cu

Thèse de doctorat en Informatique et applications

Sous la direction de Jean-Christophe Burie et de Jean-Marc Ogier.

Soutenue le 19-07-2019

à La Rochelle , dans le cadre de École doctorale Euclide (La Rochelle ; 2018-....) , en partenariat avec Laboratoire Informatique, Image, Interaction (La Rochelle) (laboratoire) .

Le président du jury était William Puech.

Le jury était composé de Jean-Christophe Burie, Jean-Marc Ogier, William Puech, Utpal Garain, Faisal Shafait, Nicole Vincent.

Les rapporteurs étaient Utpal Garain, Faisal Shafait.

  • Titre traduit

    Utilisation de techniques de reconnaissance des formes pour la dissimulation de données : application à la sécurisation des documents


  • Résumé

    Au cours des dernières années, la croissance rapide des technologies de l'information et de l’usage du numérique a rendu les images de documents plus omniprésentes que jamais. Dans les faits, il existe une grande variété de documents administratifs et commerciaux ayant une valeur «juridique» tels que les certificats, les diplômes, les contrats, les factures, etc. Ces documents sont utilisés par les institutions, les banques, les assurances, les établissements d'enseignement, etc. Par souci de simplicité, ces documents sont souvent échangés par des canaux numériques (la messagerie électronique, transfert de fichiers). L’interception de ces documents et leur potentielle falsification est devenue une question inévitable, en particulier avec le développement de la cybercriminalité. Par conséquent, la fiabilité de ces documents numériques peut être remise en question avec un impact important sur la confiance et entraîner des conséquences pénales, économiques et sociales en cas de fraudes avérées. Pour protéger ces documents numériques contre toute ingérence non autorisée, le domaine de la lutte contre la fraude a évolué et attiré l’attention des chercheurs de la communauté de l’analyse et de la reconnaissance de documents. Une solution efficace pour lutter contre la fraude consiste à dissimuler des données en utilisant des techniques de reconnaissance de formes. L'objectif de ce travail est de développer des approches fiables pour dissimuler des informations et être capable de vérifier si un document est authentique ou falsifié. Les problématiques abordées dans cette thèse concernent : (1) l'extraction de caractéristiques stables dans les documents, même en présence de distorsions ; et (2) la capacité à détecter avec précision les informations cachées pour sécuriser les documents notamment lorsque les documents «protégés» sont soumis à des distorsions causées par des processus tels que impression / numérisation ou impression / photocopie / numérisation. La première problématique est abordée en tirant parti des techniques conventionnelles de reconnaissance des formes et d’approches basées sur les apprentissages profonds (deep learning). Plus précisément, nous utilisons des détecteurs de la littérature pour détecter les points caractéristiques au sein des documents et proposons un nouveau détecteur de points caractéristiques pour développer une méthode de stéganographie. Afin d’améliorer la stabilité des caractéristiques face aux distorsions réelles, nous proposons plusieurs approches de tatouage (watermarking) utilisant des régions stables du document au lieu des points caractéristiques. Ces approches combinent des techniques conventionnelles et les réseaux entièrement connectés (FCN). Les réseaux antagonistes génératifs (GAN) sont également utilisés pour produire un document de référence, et générer des caractères alternatifs utilisés pendant le processus de tatouage. Nous proposons ainsi deux approches pour dissimuler et détecter des informations. La première repose sur la modification de l’intensité des pixels, l’autre sur la forme des caractères. Les évaluations montrent que nos approches sont capables de détecter correctement les informations cachées lorsque les documents «protégés» sont soumis à diverses distorsions. Une comparaison avec les méthodes de la littérature montre que nos approches offrent des performances compétitives en termes de robustesse pour sécuriser différents types de documents.


  • Résumé

    The fast-growing information technologies and digital image technology over the past decades have made digital document images becoming more ubiquitous than ever. In reality, there have been variety of legal documents consisting of administrative and business documents such as certificate, diploma, contract, invoice, etc. These documents are in use in government agencies, banks, educational institutions and so on. Due to convenience of exchanging information, the genuine documents are often transferred from one place to another by using digital channels. The tampering of these documents during the transmission has become an unavoidable matter, especially in the field of cybercrime. Hence, the credibility and trustworthiness of the legal digital documents have been diminished, this often results in a serious aftermath with respect to criminal, economic and social issues. To secure the genuine digital documents against unauthorized interference, the field of document forensics has been evolved, and it has drawn much attention from researchers in the community of document analysis and recognition. One of the efficient solutions to address this matter is data hiding in conjunction with pattern recognition techniques. The objective of this work is to develop a data hiding framework as trustworthy as possible that enables to verify if a document is genuine or phony. The challenging problems dealt with in this thesis are: (1) extraction of enough stable features from the documents even in the presence of various distortions; and (2) be able to detect precisely hidden information embedded for securing documents from watermarked documents undergone real distortions caused by print-and-scan, or print-photocopy-scan processes. For the former issue, we address it by taking advantage of conventional pattern recognition techniques and deep learning based approaches. Specifically, we utilize well-known detectors to detect feature points from the documents, and propose a new feature point detector for developing a steganography scheme. To enhance feature stability against the real distortions, we approach to develop watermarking systems based on stable regions instead of feature points, which are based on the conventional techniques and fully convolutional networks (FCN). In addition, the generative adversarial networks (GAN) are also applied to produce a reference document, and character variations or fonts used for watermarking process. For the later issue, we have come up with two approaches to develop data hiding and detection algorithms: one is based on the changing of pixel intensities, and the other is relied on the shape of characters and symbols.The assessments show that our approaches are able to properly detect the hidden information when the watermarked documents are subjected to various distortions. In comparison with state-of-the-art methods, our approaches give competitive performance in terms of robustness with applications to various types of document.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de La Rochelle. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.