Thèse soutenue

Analyse de sentiments sur Twitter dans un contexte faiblement supervisé
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Miriam Benballa
Direction : Alexandre Pauchet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/11/2022
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Établissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....)
Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Jury : Président / Présidente : Thierry Charnois
Examinateurs / Examinatrices : Alexandre Pauchet, Vincent Claveau, Patrice Bellot, Simon Bernard, Chloé Clavel
Rapporteurs / Rapporteuses : Vincent Claveau, Patrice Bellot

Résumé

FR  |  
EN

Ce manuscrit présente les travaux effectués dans le cadre de la thèse CIFRE réalisée en partenariat entre le LITIS et Saagie. Au cours des différents chapitres, nous nous intéressons à la tâche d’analyse de sentiments, en utilisant les modèles actuellement à l’état de l’art, les modèles fondés sur le Transformer. Plus particulièrement, nous nous concentrons sur le modèle BERT, modèle ayant inspiré bon nombre des modèles fondés sur le Transformer. Nous commençons tout d’abord par définir une liste de recommandations à prendre en compte afin de faire de l’analyse de sentiments avec ces modèles à l’état de l’art, tout en ayant accès uniquement à des ressources limitées. En effet, les modèles Transformer sont très gourmands en ressources données, mémoire, et puissance de calcul. Ces ressources sont très coûteuses, et donc difficile d’accès. Ainsi, nous recommandons l’utilisation d’un modèle spécialisé lorsque celui-ci est disponible, comme BERTweet reprenant l’architecture de BERT-base et spécialisé dans le traitement des tweets. Dans les cas où le modèle sélectionné ne possède pas d’équivalent spécialisé, nous recommandons l’utilisation du fine-tuning afin d’adapter le modèle générique aux spécificités de la tâche. Enfin, lors de son fine-tuning, le modèle peut être sensible à l’oubli catastrophique. Ceci peut être évité grâce à l’utilisation d’un taux d’apprentissage faible, ainsi qu’en gelant une partie des couches du modèle. Dans un second temps, nous cherchons à améliorer l’analyse de sentiments en réalisant différentes combinaisons des modèles suivants : l’espace latent de BERTweet affiné sur cette tâche, la représentation d’emojis Emojional, et l’espace latent de BERT-base affiné sur la détection de sarcasme. Il s’avère que la représentation d’emojis améliore grandement la classification de sentiments, mais que l’ajout du modèle de sarcasme freine cette amélioration. En poussant notre étude, nous avons émis deux hypothèses concernant ce frein : les informations de sarcasme entrent en contradiction avec les informations des autres modèles, ou la méthode de combinaison utilisée ne permet pas une bonne intégration de l’information de sarcasme. Ces hypothèses seront vérifiées en dehors du cadre de cette thèse. Enfin, nous présentons le projet SAPhIRS réalisé en partenariat entre Saagie, le LITIS et Airbus Defence and Space, et dans lequel s’inscrit cette thèse. Ce projet a pour objectif la détection de radicalisation, d’influenceurs et de communautés sur Twitter, sur un jeu de données constitué par une société externe (ELDA). Chacun des modules créés dans le cadre de ce projet intègre une chaîne de traitement (pipeline) mis en production sur la plateforme Saagie. De plus, dans l’attente du corpus collecté par ELDA, nous avons participé à la tâche de détection de haine de la compétition SemEval 2019. En effet, cette tâche reste proche de notre thématique de radicalisation.