Thèse soutenue

Modélisation et analyse des réseaux complexes associées à des informations textuelles : les apports de la prétopologie, du topic modeling et de l’apprentissage automatique à l’étude de la dynamique des réseaux sociaux, la prédiction de liens et la diffusion des sujets

FR  |  
EN
Auteur / Autrice : Thi Kim Thoa Ho
Direction : Marc BuiQuang Vu Bui
Type : Thèse de doctorat
Discipline(s) : Informatique, statistiques et cognition
Date : Soutenance le 27/11/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale de l'École pratique des hautes études (Paris)
Partenaire(s) de recherche : Laboratoire : Cognitions humaine et artificielle (Paris)
Établissement de préparation de la thèse : École pratique des hautes études (Paris ; 1868-....)
Jury : Président / Présidente : Nahid Emad Petiton
Examinateurs / Examinatrices : Marc Bui, Quang Vu Bui, Nahid Emad Petiton, Nadia Lynda Mokdad, Soufian Ben Amor, Nadia Kabachi
Rapporteurs / Rapporteuses : Nadia Lynda Mokdad, Soufian Ben Amor

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L’objet de cette thèse porte sur le concept de réseau complexe associé à de l’information textuelle. Nous nous sommes intéressés à l’analyse de ces réseaux avec une perspective d’application aux réseaux sociaux. Notre première contribution a consisté à réaliser un modèle d’analyse pour un réseau social dynamique en utilisant l’approche de modélisation à base d’agents (agent based modeling ou ABM), modèle auteur-sujet du text-mining (« author-topic modeling » ou ATM), et en ayant recours à le cadre mathématique de la prétopologie pour représenter la proximité des sujets. Notre modélisation se nomme Textual-ABM. Notre démarche a été d’utiliser le modèle auteur-sujet pour estimer l’intérêt de l’utilisateur sur la base du contenu textuel et d’employer la prétopologie pour modéliser plusieurs relations et représenter un ensemble de voisinages plus élaboré qu’une simple relation. Notre deuxième contribution concerne la diffusion des informations sur un réseau social « hétérogène ». Nous proposons d’étendre le modèle de diffusion épidémique independant cascade model (IC) et le modèle de diffusion en cascade prétopologique que nous nommons respectivement Textual-Homo-IC et Textual-PCM. Pour Textual-Homo-IC, la probabilité d’infection est basée sur l’homophilie c’est-à-dire l’affiliation à des agents ressemblants, celle-ci est obtenue à partir du contenu textuel en utilisant le modèle de sujet (topic modeling). Pour Textual-PCM, une fonction d’adhérence (pseudo-closure function) avec différentes variantes d’association pour les relations qui la constitue est proposée pour réaliser un ensemble de voisinages plus complexe. En outre, nous proposons d’utiliser l’apprentissage supervisé pour prédire la diffusion d’un sujet avec une combinaison de facteurs intrinsèques ou externes. Notre troisième contribution concerne la présiction des relations entre co-auteurs avec l’ajout d’une nouvelle caractéristique topologique liés aux facteurs géographiques et fonctionnalités de contenu à l’aide du topic modeling. L’ensemble de ces travaux est accompagné d’une partie expérimentale et de la présentation des algorithmes développés.