Apprentissage de representations pour la classification des séries chronologiques

par Andrea Cova

Projet de thèse en Mathématiques et Informatique

Sous la direction de Ahlame Douzal et de Éric Gaussier.

Thèses en préparation à Grenoble Alpes , dans le cadre de Mathématiques, Sciences et technologies de l'information, Informatique , en partenariat avec LIG - Laboratoire d'Informatique de Grenoble (laboratoire) et de AMA (equipe de recherche) depuis le 01-10-2015 .


  • Résumé

    La classification supervisée ou non supervisée de séries temporelles multivariées se pose d'une manière naturelle dans un grand nombre de domaines, en particulier dans les applications émergentes telles que les réseaux de capteurs, les réseaux sociaux, bâtiments intelligents ou l'internet des objets. Dans les applications réelles, les données temporelles provenant des mêmes sources ou mesurant le même phénomène sont souvent bruyants et ont tendance à avoir un timing extrêmement variable de leurs principales caractéristiques. Les caractéristiques temporelles peuvent être irrégulières avec des dépendances qui évoluent dans la nature et sur le temps. Enfin, les données temporelles peuvent présenter comportements globaux très différents tout en partageant des caractéristiques locales latentes. Plusieurs algorithmes d'apprentissage automatique sont disponibles pour apprendre hiérarchies profondes et des représentations de données structurées, principalement à partir d'images. Cette thèse abordera le problème de l'apprentissage de représentations latentes de données temporelles multivariées. Pour cela, nous proposons d'étudier de nouvelles approches et des algorithmes qui reposent sur l'apprentissage sans supervision des caractéristiques et d'apprentissage de métriques pour extraire représentations latentes pertinentes pour la classification et le clustering des séries temporelles multivariées. Selon la nature des données, les approches proposées doivent être i) évolutives et ii) permettre d'obtenir reconstructions efficaces de séries temporelles multivariées (par exemple la pre-estimation pré-image). La recherche effectuée sera appliquée sur les données de l'aéronautique et de l'énergie à partir de deux "utilisateurs finaux" Airbus et EDF R & D.

  • Titre traduit

    Learning representations for time series classification


  • Résumé

    Supervised or unsupervised classification of multivariate time series arise in a natural way in a lot of domains, especially in emerging applications such as sensor networks, social networks, smart buildings or internet of things. In real applications, temporal data originating from the same sources or measuring the same phenomenon are often noisy and tend to have extremely variable timing of their salient features. Temporal features may be irregular with dependencies that evolve in nature and on time. Finally, temporal data may exhibit extremely different global behaviors while sharing latent local features. Many machine learning algorithms are available to learn deep hierarchies and representations from structured data, principally from images. This thesis will address the problem of learning latent representations from multivariate temporal data. For this, we propose to study new approaches and algorithms that rely on unsupervised feature learning and learning metrics to extract latent representations pertinent for multivariate time series classification and clustering. According to the nature of the data, the proposed approaches should be i) scalable and ii) allow efficient reconstructions of multivariate time series (i.e. the pre-image estimation). The research done will be applied on aeronautic and energy data from two “end-users” AIRBUS and EDF R&D.