Thèse soutenue

Algorithmes et techniques de detection des bots dans les réseaux sociaux
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Maksim Kalameyets
Direction : Sergei SolovievAndrey ChechulinMartin Strecker
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 20/10/2021
Etablissement(s) : Toulouse 3 en cotutelle avec ITMO University
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)

Résumé

FR  |  
EN

Dans cette thèse nous proposons des techniques d'apprentissage automatique ayant comme but la détection et caractérisation des bots malveillants dans les réseaux sociaux. Une nouveauté de ces méthodes est qu'uniquement des motifs d'interaction avec des " amis " des comptes analysés sont utilisés comme source de données pour la détection des bots. Les techniques proposées ont plusieurs nouveaux avantages. Il n'y a plus de nécessité de télécharger des gros volumes de données textuelles et médiatiques, qui dépendent fortement du langage. Cela permet aussi détecter des bots cachés par des paramètres de confidentialité ou bloqués, des bots camouflés imitant des personnes réelles, les groupes de bots, et estimer la qualité et le prix d'un bot. Dans une solution que nous avons développée, nous proposons extraire des données pour l'analyse sous la forme des graphes sociaux, utilisant un modèle de réseau social hiérarchisé. Après, afin de déterminer des paramètres, nous utilisons les méthodes statistiques, algorithmes de graphes, et les méthodes nous permettant d'analyser le plongement de graphe. La décision finale est prise utilisant le modèle de foret aléatoire ou le réseau de neurones. A la base de ce schéma, nous proposons 4 techniques nous permettant de réaliser le cycle complet de détection des attaques - 2 techniques de détection des bots (détection individuelle et détection de groupe); et 2 techniques pour les caractériser - l'estimation de qualité et l'estimation de prix. La thèse aussi présente des expériences permettant à évaluer les solutions proposées. Comme exemple le réseau social VKontacte a été choisi. A ce but, nous avons développé le logiciel prototype qui peut effectuer toute la chaine d'analyse, de collection des données à la prise de décision. Et afin d'entrainer nos modèles, nous avons obtenu directement de vendeurs les données concernant les bots de qualité, prix et stratégies de camouflage différentes. L'étude a montré qu'en utilisant uniquement l'information concernant les graphes des amis il est possible de reconnaitre et caractériser les bots très efficacement (AUC-ROC ~ 0.9). En même temps, la solution proposée est robuste par rapport à l'émergence de nouveaux types des bots, et au changement de leur type - de bots générés automatiquement et comptes piratés jusqu'aux utilisateurs humaines qui se chargent de l'activité malveillante contre une rémunération.