Projet de thèse en Informatique, données, IA
Sous la direction de Aline Carneiro viana et de Alain Tchana.
Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec Inria EPI Tribe (laboratoire) depuis le 01-11-2019 .
Depuis l'invention du premier téléphone mobile en 1973 [1], l'innovation des appareils mobiles et des technologies de communication mobile a connu des progrès de plus en plus rapides au cours des cinquante dernières années. De nos jours, les appareils mobiles sont presque nécessaires pour la vie professionnelle et personnelle. Par exemple, les appareils et connexions mobiles ont atteint 8 milliards en 2016; ils seront 11,6 milliards en 2021 [2]. Le taux de pénétration sans cesse croissant des appareils mobiles et leur interaction continue avec l'infrastructure de réseau cellulaire offrent aux opérateurs de réseaux mobiles la possibilité d'enregistrer facilement des événements horodatés et géoréférencés d'une très grande population à un coût modique à des fins de facturation ou de gestion de réseau. [3] Les empreintes humaines dans la plupart des jeux de données collectées par l'opérateur proviennent du CDR - une fois référé aux enregistrements de détail d'appel, et plus tard aux enregistrements de données de facturation dans la spécification 3GPP [4, TS 32.298]. La collecte de CDR est déclenchée par les événements de facturation [4, TS 32.250 / 32.251]: appels vocaux, messages texte, visites Internet, etc. Dans ce contexte, les opérateurs de réseau mobile collectent des CDR, y compris divers événements de télécommunication. . Dans cet environnement de communication, les opérateurs de réseaux mobiles perdent encore environ 3% de leurs revenus annuels en raison de services frauduleux et illégaux. L'impact de la fraude à la terminaison du trafic vocal, communément appelée fraude au contournement du module d'identité d'abonné (SIMbox), sur les réseaux de téléphonie mobile est particulièrement grave dans certaines régions du monde. Les SIMbox frauduleuses capturent les appels vocaux internationaux et les transfèrent via Internet vers un appareil cellulaire, qui les réinjecte dans le réseau cellulaire. En conséquence, les appels deviennent locaux sur le réseau de destination. Par conséquent, les opérateurs cellulaires des réseaux intermédiaire et de destination ne reçoivent pas de paiement pour l'acheminement et la terminaison d'appels. Dans ce contexte, de nombreux défis sont ajoutés. Premièrement, le comportement des fraudeurs change très souvent au fil du temps afin de s'adapter aux solutions ciblées. Cela nécessite également une analyse en temps réel et une adaptation des solutions de détection, en évitant la détection des fraudeurs après les dommages. Deuxièmement, le trafic des fraudeurs est perturbé par les utilisateurs des centres d'appels, qui présentent une durée totale des appels importante et des numéros d'appel différents. Troisièmement, plusieurs catégories d'utilisateurs ont le comportement de fraudeurs, selon les pays (exemples de boîtes d'appel). Travail de thèse: Le but de cette thèse est de pouvoir détecter les fraudes par contournement dans la CDR tout en relevant les défis mentionnés ci-dessus. Cela implique: (1) de pouvoir distinguer différentes catégories d'utilisateurs fraudeurs; (2) utiliser des techniques d'apprentissage automatique capables de découvrir automatiquement de nouveaux comportements; (3) pouvoir considérer des catégories d'utilisateurs proches des fraudeurs, spécifiques au pays où le CDR a été collecté.
bypass frauds in cellular network datasets: understanding and mitigation
Since the first mobile phone was invented in 1973 [1], the past half-century has seen increasingly rapid advances in the innovation of mobile devices and mobile communication technologies. Nowadays mobile devices are almost necessary for business and personal lives. For instance, mobile devices and connections have reached 8 billion in 2016; they will be 11.6 billion in 2021 [2]. The ever-higher penetration rate of mobile devices and their continuous interaction with the cellular network infrastructure give mobile network operators the possibility to easily record time-stamped and geo-referenced events of a very large population at a small cost for billing or network management purposes [3]. Human footprints in most of the operator-collected datasets come from CDR once referred to Call Detail Records and later to Charging Data Records in the 3GPP specification [4, TS 32.298]. The collection of CDR is triggered by the so-called charging events [4, TS 32.250/32.251]: e.g., voice calls, text message, internet visit, etc. In this context, mobile network operators collect CDR including a variety of telecommunication events. In this well monitored communication environment, mobile network operators are however still losing about 3% of their annual revenue due to fraudulent and illegal services. The impact of voice traffic termination fraud, commonly known as Subscriber Identity Module (SIMbox) fraud or bypass fraud, on mobile networks is particularly severe in some parts of the globe. Fraudulent SIMboxes hijack international voice calls and transfer them over the Internet to a cellular device, which injects them back into the cellular network. As a result, the calls become local at the destination network. Hence, cellular operators of the intermediate and destination networks do not receive payments for call routing and termination. In this context, many challenges are added. First, the behavior of fraudsters changes very often over time in order to adapt to the target solutions. This also requires a real time analysis and adaptation of detection solutions, avoiding the detection of fraudster after the damage. Second, fraudster traffic suffers interference of call-center users, which present important total calls duration and different called numbers. Third, several categories of users have the behavior of fraudsters, depending on countries (examples of call boxes). Thesis work: This thesis goal is to be able to detect bypass frauds in CDR while deling with the challenges mentioned hereabove. This involves: (1) to be able to distinguish different categories of fraudster users; (2) to use machine learning techniques able to automatically discover new behaviors; (3) to be able to consider user categories close to fraudsters, specific to the country where the CDR was collected. References: 1. G. Goggin, Cell Phone Culture. Routledge, Sept. 2006. 2. C. V. N. Index, Global mobile data traffic forecast update, 2016-2021. https://www.cisco.com/c/en/us/solutions/collateral/service-provider/ visual-networking-index-vni/mobile-white-paper-c11-520862.html, 3. D. Naboulsi, M. Fiore, S. Ribot, and R. Stanica, Large-scale mobile traffic analysis: A survey, IEEE Communications Surveys & Tutorials, vol. 18, no. 1, pp. 124161, 2016. 4. Specifications - 3GPP. http://www.3gpp.org/specifications, 2018. (Cited on pages 13, 14 and 15.)