Credit card fraud detection using machine learning with integration of contextual knowledge

par Yvan Lucas

Thèse de doctorat en Informatique

Sous la direction de Sylvie Calabretto et de Michael Granitzer.

Soutenue le 04-12-2019

à Lyon en cotutelle avec l'Universität Passau (Deutscheland) , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec Institut national des sciences appliquées de Lyon (Lyon) (établissement opérateur d'inscription) , LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône) (laboratoire) , Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS (laboratoire) et de Distribution, Recherche d'Information et Mobilité (équipe de recherche) .

Le président du jury était Gabriele Gianini.

Le jury était composé de Sylvie Calabretto, Michael Granitzer, Gabriele Gianini, Eric Gaussier, Chantal Soulé-Dupuy, Léa Laporte, Mathias Lux, Pierre-Edouard Portier.

Les rapporteurs étaient Eric Gaussier, Chantal Soulé-Dupuy.

  • Titre traduit

    Détection de fraude par carte de crédit à l'aide de l'apprentissage automatique avec intégration des connaissances contextuelles


  • Résumé

    La détection de fraude par carte de crédit présente plusieurs caractéristiques qui en font une tâche difficile. Tout d'abord, les attributs décrivant une transaction ignorent les informations séquentielles. Deuxièmement, les comportements d'achat et les stratégies de fraude peuvent changer au fil du temps, rendant progressivement une fonction de décision apprise par un classifieur non pertinente. Nous avons effectué une analyse exploratoire afin de quantifier le dataset shift jour par jour et avons identifé des périodes calendaires qui ont des propriétés différentes au sein du jeu de données. La stratégie principale pour intégrer des informations séquentielles consiste à créer un ensemble d'attributs qui sont des statistiques descriptives obtenues en agrégeant les séquences de transactions des titulaires de carte. Nous avons utilisé cette méthode comme méthode de référence pour la détection des fraudes à la carte de crédit. Nous avons proposé une stratégie pour la création d'attributs basés sur des modèles de Markov cachés (HMM) caractérisant la transaction par différents points de vue afin d'intégrer un large spectre d'informations séquentielles au sein des transactions. En fait, nous modélisons les comportements authentiques et frauduleux des commerçants et des détenteurs de cartes selon deux caractéristiques univariées: la date et le montant des transactions. Notre approche à perspectives multiples basée sur des HMM permet un prétraitement automatisé des données pour modéliser les corrélations temporelles. Des expériences menées sur un vaste ensemble de données de transactions de cartes de crédit issu du monde réel (46 millions de transactions effectuées par des porteurs de carte belges entre mars et mai 2015) ont montré que la stratégie proposée pour le prétraitement des données basé sur les HMM permet de détecter davantage de transactions frauduleuses quand elle est combinée à la stratégie de prétraitement des données par aggrégations.


  • Résumé

    The detection of credit card fraud has several features that make it a difficult task. First, attributes describing a transaction ignore sequential information. Secondly, purchasing behavior and fraud strategies can change over time, gradually making a decision function learned by an irrelevant classifier. We performed an exploratory analysis to quantify the day-by-day shift dataset and identified calendar periods that have different properties within the dataset. The main strategy for integrating sequential information is to create a set of attributes that are descriptive statistics obtained by aggregating cardholder transaction sequences. We used this method as a reference method for detecting credit card fraud. We have proposed a strategy for creating attributes based on Hidden Markov Models (HMMs) characterizing the transaction from different viewpoints in order to integrate a broad spectrum of sequential information within transactions. In fact, we model the authentic and fraudulent behaviors of merchants and cardholders according to two univariate characteristics: the date and the amount of transactions. Our multi-perspective approach based on HMM allows automated preprocessing of data to model temporal correlations. Experiments conducted on a large set of data from real-world credit card transactions (46 million transactions carried out by Belgian cardholders between March and May 2015) have shown that the proposed strategy for pre-processing data based on HMMs can detect more fraudulent transactions when combined with the Aggregate Data Pre-Processing strategy.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Cette thèse a donné lieu à une publication

Credit card fraud detection using machine learning with integration of contextual knowledge


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc’INSA. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication

Informations

  • Sous le titre : Credit card fraud detection using machine learning with integration of contextual knowledge
  • Détails : 1 vol. (125 p.)
  • Notes : Thèse soutenue en co-tutelle.
  • Annexes : Bibliogr. p.115-125
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.