Thèse soutenue

Détection d’anomalies et identification de leurs précurseurs dans des grandes collections de séries temporelles

FR  |  
EN
Auteur / Autrice : Paul Boniol
Direction : Themis Palpanas
Type : Thèse de doctorat
Discipline(s) : Science des données
Date : Soutenance le 29/11/2021
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique PAris DEscartes (Paris ; 1998)
Entreprise : Électricité de France
Jury : Président / Présidente : Bernd Amann
Examinateurs / Examinatrices : Bernd Amann, Karine Bennis-Zeitouni, Germain Forestier, Michalis Vazirgiannis
Rapporteurs / Rapporteuses : Karine Bennis-Zeitouni, Germain Forestier

Résumé

FR  |  
EN

Les larges collections de séries temporelles deviennent une réalité dans un grand nombre de domaines scientifiques et sociaux, comme la finance, les sciences de l’environnement, l’astrophysique, les neurosciences, l’ingénierie ou les métiers du numérique. Il y a donc un intérêt et un besoin de plus en plus importants de développer des techniques efficaces pour analyser et traiter ce type de données. De manière informelle, une série temporelle est une séquence ordonnée de points ou de valeurs. Une fois les séries collectées et disponibles, les utilisateurs ont souvent besoin de les étudier pour en extraire de la valeur et de la connaissance. Ces analyses peuvent être simples, comme sélectionner des fenêtres temporelles, mais aussi complexes, comme rechercher des similarités entre des séries ou détecter des anomalies, souvent synonymes d’évolutions soudaines et inhabituelles possiblement non souhaitées, voire de dysfonctionnements du système étudié. Ce dernier type d’analyse représente un enjeu crucial pour des applications dans un large éventail de domaines partageant tous le même objectif : détecter les anomalies le plus rapidement possible pour éviter la survenue de tout événement critique, comme par exemple de prévenir les dégradations et donc d’allonger la durée de vie des systèmes. Par conséquent, dans ce travail de thèse, nous traitons les trois objectifs suivants : (i) l’exploration non-supervisée de séries temporelles pour la détection rétrospective d’anomalies à partir d’une collection de séries temporelles. (ii) la détection non-supervisée d’anomalies en temps réel dans les séries temporelles. (iii) l’explication de la classification d’anomalies connues dans les séries temporelles, afin d’identifier de possibles précurseurs. Dans ce manuscrit, nous introduisons d’abord le contexte industriel qui a motivé la thèse, des définitions fondamentales, une taxonomie des séries temporelles et un état de l’art des méthodes de détection d’anomalies. Nous présentons ensuite nos contributions scientifiques en suivant les trois axes mentionnés précédemment. Ainsi, nous décrivons premièrement deux solutions originales, NormA (basée sur une méthode de clustering de sous-séquences de la série temporelle à analyser) et Series2Graph (qui s’appuie sur une transformation de la séries temporelle en un réseau orienté), pour la tâche de détection non supervisée de sous-séquences anormales dans les séries temporelles statiques (i.e., n’évoluant pas dans le temps). Nous présentons dans un deuxième temps la méthode SAND (inspiré du fonctionnement de NormA) développée pour répondre à la tâche de détection non-supervisée de sous-séquences anormales dans les séries temporelles évoluant de manière continue dans le temps. Dans une troisième phase, nous abordons le problème lié à l’identification supervisée des précurseurs. Nous subdivisons cette tâche en deux problèmes génériques : la classification supervisée de séries temporelles d’une part, l’explication des résultats de cette classification par l’identification de sous-séquences discriminantes d’autre part. Enfin, nous illustrons l’applicabilité et l’intérêt de nos développements au travers d’une application portant sur l’identification de précurseurs de vibrations indésirables survenant sur des pompes d’alimentation en eau dans les centrales nucléaires françaises d’EDF.