Prominent microblog users prediction during crisis events : using phase-aware and temporal modeling of users behavior

par Imen Bizid

Thèse de doctorat en Informatique et applications

Sous la direction de Patrice Boursier et de Sami Faiz.

  • Titre traduit

    Prédiction des utilisateurs primordiaux des microblogs durant les situations de crise : modélisation temporelle des comportements des utilisateurs en fonction des phases des évènements


  • Résumé

    Durant les situations de crise, telles que les catastrophes, le besoin de recherche d’informations (RI) pertinentes partagées dans les microblogs en temps réel est inévitable. Cependant, le grand volume et la variété des flux d’informations partagées en temps réel dans de telles situations compliquent cette tâche. Contrairement aux approches existantes de RI basées sur l’analyse du contenu, nous proposons de nous attaquer à ce problème en nous basant sur les approches centrées utilisateurs tout en levant un certain nombre de verrous méthodologiques et technologiques inhérents : 1) à la collection des données partagées par les utilisateurs à évaluer, 2) à la modélisation de leurs comportements, 3) à l’analyse des comportements, et 4) à la prédiction et le suivi des utilisateurs primordiaux en temps réel. Dans ce contexte, nous détaillons les approches proposées dans cette thèse afin de prédire les utilisateurs primordiaux qui sont susceptibles de partager les informations pertinentes et exclusives ciblées et de permettre aux intervenants d’urgence d’accéder aux informations requises quel que soit le format (i.e. texte, image, vidéo, lien hypertexte) et en temps réel. Ces approches sont centrées sur trois principaux aspects. Nous avons tout d’abord étudié l’efficacité de différentes catégories de mesures issues de la littérature et proposées dans cette thèse pour représenter le comportement des utilisateurs. En nous basant sur les mesures pertinentes résultant de cette étude, nous concevons des nouvelles caractéristiques permettant de mettre en évidence la qualité des informations partagées par les utilisateurs selon leurs comportements. Le deuxième aspect consiste à proposer une approche de modélisation du comportement de chaque utilisateur en nous basant sur les critères suivants : 1) la modélisation des utilisateurs selon l’évolution de l’évènement, 2) la modélisation de l’évolution des activités des utilisateurs au fil du temps à travers une représentation sensible au temps, 3) la sélection des caractéristiques les plus discriminantes pour chaque phase de l’évènement. En se basant sur cette approche de modélisation, nous entraînons différents modèles de prédiction qui apprennent à différencier les comportements des utilisateurs primordiaux de ceux qui ne le sont pas durant les situations de crise. Les algorithmes SVM et MOG-HMMs ont été utilisés durant la phase d’apprentissage. La pertinence et l’efficacité des modèles de prédiction appris ont été validées à l’aide des données collectées par notre système multi-agents MASIR durant deux inondations qui ont eu lieu en France et des vérités terrain appropriées à ces collections.


  • Résumé

    During crisis events such as disasters, the need of real-time information retrieval (IR) from microblogs remains inevitable. However, the huge amount and the variety of the shared information in real time during such events over-complicate this task. Unlike existing IR approaches based on content analysis, we propose to tackle this problem by using user-centricIR approaches with solving the wide spectrum of methodological and technological barriers inherent to : 1) the collection of the evaluated users data, 2) the modeling of user behavior, 3) the analysis of user behavior, and 4) the prediction and tracking of prominent users in real time. In this context, we detail the different proposed approaches in this dissertation leading to the prediction of prominent users who are susceptible to share the targeted relevant and exclusive information on one hand and enabling emergency responders to have a real-time access to the required information in all formats (i.e. text, image, video, links) on the other hand. These approaches focus on three key aspects of prominent users identification. Firstly, we have studied the efficiency of state-of-the-art and new proposed raw features for characterizing user behavior during crisis events. Based on the selected features, we have designed several engineered features qualifying user activities by considering both their on-topic and off-topic shared information. Secondly, we have proposed a phase-aware user modeling approach taking into account the user behavior change according to the event evolution over time. This user modeling approach comprises the following new novel aspects (1) Modeling microblog users behavior evolution by considering the different event phases (2) Characterizing users activity over time through a temporal sequence representation (3) Time-series-based selection of the most discriminative features characterizing users at each event phase. Thirdly, based on this proposed user modeling approach, we train various prediction models to learn to differentiate between prominent and non-prominent users behavior during crisis event. The learning task has been performed using SVM and MoG-HMMs supervised machine learning algorithms. The efficiency and efficacy of these prediction models have been validated thanks to the data collections extracted by our multi-agents system MASIR during two flooding events who have occured in France and the different ground-truths related to these collections.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de La Rochelle. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.