Anonymisation dans les réseaux sociaux

par Pierre Cazals

Projet de thèse en Informatique

Sous la direction de Cristina Bazgan.

Thèses en préparation à Paris Sciences et Lettres en cotutelle avec l'Université de Portsmouth , dans le cadre de Ecole doctorale de Dauphine (Paris) , en partenariat avec Laboratoire d'Analyse et de Modélisation de Systèmes d'Aide à la Décision (laboratoire) et de Université Paris-Dauphine (établissement de préparation de la thèse) depuis le 01-10-2018 .


  • Résumé

    Avec le fort développement de divers réseaux sociaux, la protection de la vie privée est devenue un champ de recherche important et actif. Les réseaux sociaux peuvent contenir des informations sensibles sur les individus. La représentation habituelle des réseaux sociaux est basée sur des graphes, où les nœuds correspondent à des individus ou à d'autres entités sociales et les arêtes correspondent à des relations entre entités. Dans de nombreuses situations, l'objectif est de préserver certaines propriétés générales des réseaux tout en assurant l'anonymat de ses entités. L'anonymat d'une entité est généralement atteint par une légère modification de ses caractéristiques pour rendre plusieurs entités similaires et donc indiscernables. Un moyen classique d'anonymiser les données est le cryptage et le hachage. Cependant, ces méthodes sont insuffisantes pour une protection réelle puisque les utilisateurs malveillants peuvent relativement facilement analyser les données et produire des inférences basées sur la connaissance préalable de leur cible. Plusieurs techniques d'anonymisation plus sophistiquées ont été proposées dans la littérature. La généralisation groupe les enregistrements en fonction de certains critères afin de masquer les enregistrements individuels. La perturbation des données consiste à modifier les données sans perturber la signification statistique de ces données. La k-anonymisation est également une méthode commune où chaque échantillon de données est considéré comme anonyme si chaque enregistrement est indiscernable d'au moins (k-1) autres. Plusieurs de ces modèles ont été étudiés d'un point de vue algorithmique. Plusieurs algorithmes pour l'anonymisation par clustering sont déjà connus. La complexité du problème de la k-anonymisation a déjà été étudiée et des heuristiques ont été proposées soit par suppression de sommet/arêtes, soit par insertion. L'objectif est de définir et d'étudier des problèmes d'optimisation basés sur des modèles d'anonymisation existants ou nouveaux. Généralement, la plupart de ces problèmes d'optimisation sont NP-durs. Le but de cette thèse est d'identifier les cas où les problèmes sont solubles en temps polynomial et d'établir des algorithmes exacts et approchés pour résoudre ces problèmes. D'autres approches comme l'algorithmique paramétrée exacte et approchée seront considérées.

  • Titre traduit

    Anonymization in Social Networks


  • Résumé

    With enormous extension of various social networks, the protection of privacy has become an important and active field of research. Social networks may contain sensitive information about individuals. The usual representation of social networks is based on graphs, where nodes correspond to individuals or other social entities and edges correspond to relationships between entities. In many situations, the goal is to preserve some general properties of the networks while ensuring anonymity of its entities. Anonymity of an entity is usualy achieved by a slight modification of its features to make several entities similar and thus undistinguishable. A classical way to anonymize data is encryption and hashing. However, these methods are insufficient for a real protection since the malicious users can relatively easily analyze the data and produce inferences based on prior knowledge of their target. Several more sophisticated anonymization techniques have been proposed in the literature. Generalization groups records according to certain criteria in order to hide individual records. Data perturbation consists of modifying the data without disrupting the statistical significance of these data. k-anonymization is also a common method where each sample of data is considered anonymous if each record is indistinguishable from at least (k−1) others. Several such models were studied from an algorithmic point of view]. Several algorithms for anonymization by clustering are already known. The computational complexity of making a given graph k-anonymous were studied and heuristics were proposed either through vertex/edge deletions or through vertex/edge insertions. A main task is to define and study optimization problems based on existing or new models of anonymization. Generally, most of these optimization problems are NP-hard. The goal of this PhD thesis is to identify cases which the problems are polynomial-time solvable and establish exact and approximation algorithms for solving these problems. Other approaches as exact and approximate parameterized algorithms will be considered.