Thèse soutenue

Cadre générique pour le traitement et l'analyse multidimensionnelle des réseaux sociaux : une approche proxémique

FR  |  
EN
Auteur / Autrice : Maxime Masson
Direction : Christian SallaberryRodrigo AgerriMarie-Noëlle BessagnetPhilippe Roose
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/09/2024
Etablissement(s) : Pau en cotutelle avec Universidad del País Vasco. Facultad de ciencias
Ecole(s) doctorale(s) : École doctorale sciences exactes et leurs applications (Pau, Pyrénées Atlantiques ; 1995-)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Université de Pau et des pays de l'Adour (Pau)
Jury : Président / Présidente : Ana-Maria Olteanu-Raimond
Examinateurs / Examinatrices : Christian Sallaberry, Rodrigo Agerri, Marie-Noëlle Bessagnet, Philippe Roose, Elena Cabrio, Josiane Mothe, Maguelonne Teisseire
Rapporteurs / Rapporteuses : Elena Cabrio, Josiane Mothe

Résumé

FR  |  
EN

Cette thèse introduit un nouveau cadre de travail multilingue, le framework APs, conçu pour simplifier le traitement et l'analyse des données des réseaux sociaux. Ce framework est générique sur deux aspects : il peut être appliqué à différentes plateformes de réseaux sociaux et est adaptable à différents domaines d'application. La généricité du framework à des domaines d'application variés est permise grâce à l'utilisation de représentations sémantiques des connaissances du domaine. Le framework APs vise à extraire des connaissances de manière indépendante du domaine à partir des réseaux sociaux pour des utilisateurs non-informaticiens, tels que les parties prenantes dans divers domaines, enrichissant ainsi leurs processus d'analyse. Le framework est structuré en quatre phases.Dans la phase de Collecte, une méthodologie itérative est proposée pour construire des jeux de données thématiques à partir des réseaux sociaux. Elle vise à surmonter les difficultés liées à la création de jeux de données précis et exhaustifs dans un contexte volumineux et bruyant. Cette méthodologie évolue des techniques d'extraction ad hoc vers un processus semi-automatique, intégrant des retours humains et des techniques de filtrage basées sur le contenu et les métadonnées, en lien avec des descriptions sémantiques des domaines. Son objectif est de fournir une méthode standardisée pour la construction de tels jeux de données.Dans la phase de Transformation, l'accent est mis sur la transformation de données textuelles multilingues et non structurées en connaissances structurées pour un domaine spécifique. Trois tâches récurrentes sont abordées : la détection des sentiments, la reconnaissance des entités nommées pour les lieux, et l'extraction de concepts thématiques. Pour pallier le manque de ressources d'entraînement multilingues, un nouveau jeu de données annoté est créé pour le secteur du tourisme. L'étude compare des méthodes d'analyse multilingue basées sur des règles et sur l'apprentissage automatique, cherchant à minimiser les efforts d'annotation manuelle tout en préservant la qualité des résultats.Dans la phase d'Analyse, l'idée d'adapter la théorie de la proxémique aux réseaux sociaux est explorée pour élaborer des indicateurs pertinents pour divers domaines. Un modèle de données proxémique est créé, permettant de représenter les entités et leurs interactions de manière générique. ProxMetrics, un ensemble d'outils, est introduit pour créer des indicateurs composite exprimés comme des mesures de similarité proxémiques. Ces outils sont validés en collaboration avec un office de tourisme local.Enfin, dans la phase de Valorisation, l'accent est mis sur la rendu des indicateurs et des analyses des réseaux sociaux accessibles à des utilisateurs non spécialisés. TextBI, un tableau de bord multidimensionnel, est proposé pour visualiser des annotations et des indicateurs multidimensionnels sur des jeux de données multilingues provenant des réseaux sociaux. Ce tableau de bord est polyvalent et fonctionne dans différents domaines, tant que les données adhèrent au modèle de données proxémique.