Multiple identities detection in online social media

par Zaher Rabah Yamak

Thèse de doctorat en Informatique

Sous la direction de Laurent Vercouter.

Le président du jury était Cyrille Bertelle.

Le jury était composé de Laurent Vercouter, Christine Largeron, Zahia Guessoum, Julien Saunier, Babak Esfandiari.

Les rapporteurs étaient Christine Largeron, Zahia Guessoum.

  • Titre traduit

    Détection d'identités multiples dans les médias sociaux


  • Résumé

    Depuis 2004, les médias sociaux en ligne ont connu une croissance considérable. Ce développement rapide a eu des effets intéressants pour augmenter la connexionet l'échange d'informations entre les utilisateurs, mais certains effets négatifs sont également apparus, dont le nombre de faux comptes grandissant jour après jour.Les sockpuppets sont les multiples faux comptes créés par un même utilisateur. Ils sont à l'origine de plusieurs types de manipulations comme la création de faux comptes pour louer, défendre ou soutenir une personne ou une organisation, ou pour manipuler l'opinion publique. Dans cette thèse, nous présentons SocksCatch, un processus complet de détection et de groupage des sockpuppets composé de trois phases principales : la première phase a pour objectif la préparation du processus et le pré-traitement des données; la seconde phase a pour objectif la détection des comptes sockpuppets à l'aide d'algorithmes d'apprentissage automatique; la troisième phase a pour objectif le regroupement des comptes sockpuppets créés par un même utilisateur à l'aide d'algorithmes de détection de communautés. Ces phases sont déclinées en trois étapes : une étape "modèle" pour représenter les médias sociaux en ligne, où nous proposons un modèle général de médias sociaux dédié à la détection et au regroupement des sockpuppets ; une étape d'adaptation pour ajuster le processus à un média social spécifique, où nous instancions et évaluons le modèle SocksCatch sur un média social sélectionné ; et une étape en temps réel pour détecter et grouper les sockpuppets en ligne, où SocksCatch est déployé en ligne sur un média social sélectionné. Des expérimentations ont été réalisées sur l'étape d'adaptation en utilisant des données réelles extraites de Wikipédia anglais. Afin de trouver le meilleur algorithme d'apprentissage automatique pour la phase de détection de sockpuppet, les résultats de six algorithmes d'apprentissage automatique sont comparés. En outre, ils sont comparés à la littérature où les résultats de la comparaison montrent que notre proposition améliore la précision de la détection des sockpuppets. De plus, les résultats de cinq algorithmes de détection de communauté sont comparés pour la phase de regroupement de Sockpuppet, afin de trouver le meilleur algorithme de détection de communauté qui sera utilisé en temps réel.


  • Résumé

    Since 2004, online social medias have grown hugely. This fast development had interesting effects to increase the connection and information exchange between users, but some negative effects also appeared, including fake accounts number growing day after day. Sockpuppets are multiple fake accounts created by a same user. They are the source of several types of manipulation such as those created to praise, defend or support a person or an organization, or to manipulate public opinion. In this thesis, we present SocksCatch, a complete process to detect and group sockpuppets, which is composed of three main phases: the first phase objective is the process preparation and data pre-processing; the second phase objective is the detection of the sockpuppet accounts using machine learning algorithms; the third phase objective is the grouping of sockpuppet accounts created by a same user using community detection algorithms. These phases are declined in three stages: a model stage to represent online social medias, where we propose a general model of social media dedicated to the detection and grouping of sockpuppets; an adaptation stage to adjust the process to a particular social media, where we instantiate and evaluate the SocksCatch model on a selected social media; and a real-time stage to detect and group the sockpuppets online, where SocksCatch is deployed online on a selected social media. Experiments have been performed on the adaptation stage using real data crawled from English Wikipedia. In order to find the best machine learning algorithm for sockpuppet's detection phase, the results of six machine learning algorithms are compared. In addition, they are compared with the literature, and the results show that our proposition improves the accuracy of the detection of sockpuppets. Furthermore, the results of five community detection algorithms are compared for sockpuppet's grouping phase, in order to find the best community detecton algorithm that will be used in real-time stage.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?