Détection de nouveauté au plus tôt dans des flux de données textuelles

Clément Christophe

Thèse Année : 2021

Early novelty detection in textual data streams

Détection de nouveauté au plus tôt dans des flux de données textuelles

(1)

Clément Christophe

Fonction : Auteur

Entrepôts, Représentation et Ingénierie des Connaissances

Résumé

The work presented in this thesis, made in collaboration with Électricité de France (EDF), aims to develop novelty detection models in textual data streams. For EDF, this is part of an approach to anticipate customer needs.We present different novelty detection approaches that exist in the literature, which allows us to precisely define the tasks we want to solve. These definitions allow us to set up evaluation methods, based either on simulated data or on real data. Modifying real data allows us to simulate novelty arrival scenarios and therefore to measure the performance of existing methods.We present two models of detection for new elements by first using topic probabilistic models. The second approach is CEND, an algorithm based on the movements of words in high dimensional representation spaces. This type of model allows us to distinguish words linked with abrupt events or slowly emerging themes.We present a model for monitoring the dynamics of a classification plan. By linking methods of time series forecasting and sequential analysis, we estimate when the dynamic of a signal changes. We test these methods on public press data and on an EDF industrial dataset.

Les travaux présentés dans cette thèse, réalisés en partenariat avec l'entreprise Électricité de France (EDF), ont pour objectif de développer des modèles de détection de nouveauté dans des flux de données textuelles. Pour EDF, cela s'inscrit dans une démarche d'anticipation des besoins clients.Nous présentons les différentes approches de détection de nouveauté existantes dans la littérature, ce qui nous permet de définir précisément les tâches que nous voulons résoudre. Ces définitions nous permettent de mettre en place des méthodes d'évaluations, basées soit sur des données simulées, soit sur des données réelles. La modification des données réelles nous permet de simuler des scénarios d'arrivées de la nouveauté et donc de mesurer l'efficacité des méthodes existantes. Nous présentons deux modèles de détections d'éléments nouveaux en utilisant tout d'abord les modèles thématiques probabilistes. Le deuxième modèle est CEND, un algorithme se basant sur les mouvements des mots dans des espaces de représentations en grandes dimensions. Ce type de modèle nous permet de faire la différence entre des mots liés à des évènements abrupts et des thématiques émergents doucement.Nous présentons un modèle de surveillance des dynamiques des plans de classements. En liant des méthodes de prévision de série temporelle et d'analyse séquentielle, nous arrivons à estimer quand est-ce qu'un signal temporel change de dynamique. Nous testons ces méthodes sur des données d'articles de presse et sur des données industrielles d'EDF.

Mots clés

Novelty detection Topic models Temporal word embeddings Forecasting

Détection de nouveauté Modèles thématique Modèles de plongements temporels Prévision de séries temporelles

Domaines

Informatique et langage [cs.CL]

Fichier principal

these_internet_christophe_c.pdf (4.67 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03386136

Soumis le : vendredi 22 octobre 2021-10:48:12

Dernière modification le : mercredi 5 avril 2023-04:10:44

Dates et versions

tel-03386136 , version 1 (19-10-2021)

tel-03386136 , version 2 (22-10-2021)

Identifiants

HAL Id : tel-03386136 , version 2

Citer

Clément Christophe. Détection de nouveauté au plus tôt dans des flux de données textuelles. Informatique et langage [cs.CL]. Université de Lyon, 2021. Français. ⟨NNT : 2021LYSE2026⟩. ⟨tel-03386136v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LYON1 UNIV-LYON2 STAR ERIC THESES-LYON2 UDL

179 Consultations

98 Téléchargements

Early novelty detection in textual data streams

Détection de nouveauté au plus tôt dans des flux de données textuelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager