Analyse et anonymisation de graphes d'appels téléphoniques

par Héber Hwang Arcolezi (Arcolezi)

Projet de thèse en Informatique

Sous la direction de Jean-François Couchot.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; Dijon ; Belfort) , en partenariat avec FEMTO-ST Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (laboratoire) et de DISC - Département Informatique et Systèmes Complexes (equipe de recherche) depuis le 01-04-2019 .


  • Résumé

    Tous les accès au réseau effectués par les téléphones portables laissent des traces. Les opérateurs de réseaux mobiles sont utilisés pour stocker ces traces à des fins de facturation sous la forme d'enregistrements des détails de l'appel (CDR) qui comprennent principalement le temps de communication, la durée, la localisation macroscopique et la destination de l'appel. En outre, de nombreuses applications de combiné (par exemple, True Caller, Number Book,...) capturent également des CDR enrichis qui incluent des contacts personnels, la localisation précise, le contenu de la communication et les contacts des destinataires. Les CDR sont classiquement anonymisés avant d'être utilisés. L'analyse de résultats anonymes peut conduire à des comportements intéressants pour les chercheurs mais aussi pour les entreprises qui souhaitent développer de nouveaux marchés. Toutefois, une atteinte à la vie privée peut survenir lorsque les données rendues anonymes sont divulguées et combinées à des connaissances supplémentaires. Par exemple, l'analyse des habitudes d'appel des personnes (p. ex. fréquence et emplacement des appels) peut être utilisée pour déduire l'identité de l'appelant. Supprimer simplement les numéros de téléphone des identificateurs, par exemple) ne suffit pas du tout. De nombreuses atteintes à la vie privée ont été observées à la suite de l'échec des techniques d'anonymisation, même dans le contexte imité des graphiques de données d'appel. En raison du risque de briser l'anonymat, de nombreux opérateurs téléphoniques limitent la quantité et le type de données qu'ils sont prêts à vendre, à partager ou à rendre publiques : par exemple, Orange, avec sa solution FluxVision (https://www.orange-business.com/fr/produits/flux-vision), produit "uniquement" des statistiques générales sur la présence d'une classe de population lors d'événements particuliers. Ces données sont dérivées des connexions aux antennes téléphoniques de l'opérateur. Cette thèse de doctorat vise à fournir un modèle d'anonymisation qui garantit que ces données ne permettront pas la ré-identification et ne pourront pas être utilisées pour relier les individus à leurs informations sensibles, lorsqu'elles sont divulguées à des tiers. Toutefois, ces données devraient également rester utiles pour l'analyse agrégée et l'exploitation. Ce modèle doit d'abord permettre de prouver mathématiquement qu'il est possible de ré-identifier des individus et de les relier à leurs informations sensibles. Il permettra également l'exécution immédiate, sinon extrêmement rapide, des données habituellement dérivées de graphiques d'appels téléphoniques importants.

  • Titre traduit

    Safe Anonymization Techniques for Data Call Records


  • Résumé

    All network access made by mobile phones leave some traces. Mobile network operators are used to store those traces for billing purpose in the form of call detail records (CDR) that includes mainly communication time, duration, macroscopic location and destination of the call. Besides, many handset applications (e.g. True Caller, Number Book,...) capture also, enriched CDRs that includes personal contacts, precise location, communication content, and recipients contacts. CDR are classically anonymized before being used. The analysis of anonymous results can lead to interesting behaviours for researchers but also for companies wishing to develop new markets. However, a privacy breach can occur when the anonymized data is disclosed and combined with additional knowledge. For example, analysis of call patterns of individuals (e.g., call frequency, call location) can be used to infer the caller's identity. Simply deleting identifers (phone numbers, for example) is not enough at all. Many privacy breaches have been observed as a result of failed anonymization techniques, even in the limited context of call data graphs. Because of the risk of breaking anonymity, many telephone operators place limitations on the the amount and type of data they are ready to sell, share, or make publicly available: for example, Orange, with its FluxVision1 solution, only" produces general statistics on the presence of a population class during specific events. This data is derived from connections to the operator's telephone antennas. This doctoral thesis aims at providing a model of anonymization that ensures that these data will not allow re-identification and cannot be used to link individuals to their sensitive information, when disclosed to third parties. However, these data should also remain useful for aggregate analysis and exploitation. This model must first of all make it possible to mathematically prove that it is impossible to re-identify individuals and link them to their sensitive information. It will also allow immediate, if not extremely fast, execution on data usually derived from large telephone call graphs.