Détection de nouveauté au plus tôt dans des flux de données textuelles - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Early novelty detection in textual data streams

Détection de nouveauté au plus tôt dans des flux de données textuelles

Résumé

The work presented in this thesis, made in collaboration with Électricité de France (EDF), aims to develop novelty detection models in textual data streams. For EDF, this is part of an approach to anticipate customer needs.We present different novelty detection approaches that exist in the literature, which allows us to precisely define the tasks we want to solve. These definitions allow us to set up evaluation methods, based either on simulated data or on real data. Modifying real data allows us to simulate novelty arrival scenarios and therefore to measure the performance of existing methods.We present two models of detection for new elements by first using topic probabilistic models. The second approach is CEND, an algorithm based on the movements of words in high dimensional representation spaces. This type of model allows us to distinguish words linked with abrupt events or slowly emerging themes.We present a model for monitoring the dynamics of a classification plan. By linking methods of time series forecasting and sequential analysis, we estimate when the dynamic of a signal changes. We test these methods on public press data and on an EDF industrial dataset.
Les travaux présentés dans cette thèse, réalisés en partenariat avec l'entreprise Électricité de France (EDF), ont pour objectif de développer des modèles de détection de nouveauté dans des flux de données textuelles. Pour EDF, cela s'inscrit dans une démarche d'anticipation des besoins clients.Nous présentons les différentes approches de détection de nouveauté existantes dans la littérature, ce qui nous permet de définir précisément les tâches que nous voulons résoudre. Ces définitions nous permettent de mettre en place des méthodes d'évaluations, basées soit sur des données simulées, soit sur des données réelles. La modification des données réelles nous permet de simuler des scénarios d'arrivées de la nouveauté et donc de mesurer l'efficacité des méthodes existantes. Nous présentons deux modèles de détections d'éléments nouveaux en utilisant tout d'abord les modèles thématiques probabilistes. Le deuxième modèle est CEND, un algorithme se basant sur les mouvements des mots dans des espaces de représentations en grandes dimensions. Ce type de modèle nous permet de faire la différence entre des mots liés à des évènements abrupts et des thématiques émergents doucement.Nous présentons un modèle de surveillance des dynamiques des plans de classements. En liant des méthodes de prévision de série temporelle et d'analyse séquentielle, nous arrivons à estimer quand est-ce qu'un signal temporel change de dynamique. Nous testons ces méthodes sur des données d'articles de presse et sur des données industrielles d'EDF.
Fichier principal
Vignette du fichier
these_internet_christophe_c.pdf (4.67 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03386136 , version 1 (19-10-2021)
tel-03386136 , version 2 (22-10-2021)

Identifiants

  • HAL Id : tel-03386136 , version 2

Citer

Clément Christophe. Détection de nouveauté au plus tôt dans des flux de données textuelles. Informatique et langage [cs.CL]. Université de Lyon, 2021. Français. ⟨NNT : 2021LYSE2026⟩. ⟨tel-03386136v2⟩
179 Consultations
98 Téléchargements

Partager

Gmail Facebook X LinkedIn More