Détection des fraudes : de l’image à la sémantique du contenu : application à la vérification des informations extraites d’un corpus de tickets de caisse

Chloé Artaud

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Chloé Artaud
Direction :	Antoine Doucet, Jean-Marc Ogier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 06/02/2019
Etablissement(s) :	La Rochelle
Ecole(s) doctorale(s) :	École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury :	Président / Présidente : Béatrice Daille
	Examinateurs / Examinatrices : Antoine Doucet, Jean-Marc Ogier, Béatrice Daille, Patrice Bellot, Nicole Vincent, Vincent Claveau, Petra Gomez-Krämer
	Rapporteurs / Rapporteuses : Patrice Bellot, Nicole Vincent

Mots clés

FR |

EN

Mots clés contrôlés

Reconnaissance optique des caractères

Ontologies (informatique)

Faux

Mots clés libres

Détection des faux documents

Corpus de documents

Extraction d’information

Ontologie

Abréviations

Fausses informations

Résumé

FR |

EN

Les entreprises, les administrations, et parfois les particuliers, doivent faire face à de nombreuses fraudes sur les documents qu’ils reçoivent de l’extérieur ou qu’ils traitent en interne. Les factures, les notes de frais, les justificatifs... tout document servant de preuve peut être falsifié dans le but de gagner plus d’argent ou de ne pas en perdre. En France, on estime les pertes dues aux fraudes à plusieurs milliards d’euros par an. Étant donné que le flux de documents échangés, numériques ou papiers, est très important, il serait extrêmement coûteux en temps et en argent de les faire tous vérifier par des experts de la détection des fraudes. C’est pourquoi nous proposons dans notre thèse un système de détection automatique des faux documents. Si la plupart des travaux en détection automatique des faux documents se concentrent sur des indices graphiques, nous cherchons quant à nous à vérifier les informations textuelles du document afin de détecter des incohérences ou des invraisemblances. Pour cela, nous avons tout d’abord constitué un corpus de tickets de caisse que nous avons numérisés et dont nous avons extrait le texte. Après avoir corrigé les sorties de l’OCR et fait falsifier une partie des documents, nous en avons extrait les informations et nous les avons modélisées dans une ontologie, afin de garder les liens sémantiques entre elles. Les informations ainsi extraites, et augmentées de leurs possibles désambiguïsations, peuvent être vérifiées les unes par rapport aux autres au sein du document et à travers la base de connaissances constituée. Les liens sémantiques de l’ontologie permettent également de chercher l’information dans d’autres sources de connaissances, et notamment sur Internet.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Détection des fraudes : de l’image à la sémantique du contenu : application à la vérification des informations extraites d’un corpus de tickets de caisse

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Détection des fraudes : de l’image à la sémantique du contenu : application à la vérification des informations extraites d’un corpus de tickets de caisse

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses