Apprentissage non supervisé de représentations et application aux séries temporelles

par Pierre Laforgue

Projet de thèse en Mathématiques et Informatique

Sous la direction de Florence D'alche buc et de Stephan Clemencon.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) , S2A - Statistique et Apprentissage (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 10-10-2016 .


  • Résumé

    Cette thèse vise à développer sur le plan théorique et pratique des méthodes d'apprentissage non supervisé de représentations vectorielles de données structurées et complexes. On exploitera en particulier l'apprentissage de fonctions à valeurs vectorielles dans un espace de Hilbert et on privilégiera l'étude des méthodes à noyaux à valeurs opérateurs et à noyau scalaire de sortie. Les approches qui seront proposées devront entre autre s'appliquer à de séries temporelles multivariées, hétérogènes et non stationnaires. Notamment les représentations proposées pourront être utiles à différentes tâches telles que la détection d'anomalies ou encore l'identification de dérives ou de défauts. L'apprentissage de représentation est vu ici comme l'apprentissage d'une fonction de re-description. Pour formuler ce problème d'estimation, il faut définir l'espace fonctionnel où l'on cherche la fonction de re-description ainsi que la fonctionnelle de coût incluant un terme d'adéquaiton aux données et des pénalités imposant les propriétés que la fonction de re-description doit vérifier. On gardera en tête que les représentations obtenues sont ensuite utilisées dans des tâches particulières (classification, détection d'anomalie..) qui pourront également servir à l'évéluation. En effet, suivant que la représentation soit utilisée pour de la classification, de la détection d'anomalies, la méthode de construction peut varier ainsi que la représentation elle-même. Sans connaître encore le type de traitement dans lequel seront traitées les représentations obtenues, il est toutefois possible d'établir la liste des propriétés souhaitables des représentations. Prenons l'exemple de séries temporelles. Une première caractéristique essentielle des représentations recherchées doit être la prise en compte des propriétés trajectorielles des séries temporelles. Une seconde caractéristique concerne la nature non stationnaire des signaux étudiés. La méthode doit, par exemple, pouvoir détecter et s'adapter à la dérive du comportement observé. Une troisième caractéristique porte sur la nature multivariée des signaux et de leur hétérogénéité. La structure de dépendance causale entre variables d'états doit être identifiée et prise en compte. Une quatrième caractéristique est liée à la robustesse de la méthode de représentation face aux différents types de bruit inhérents aux mesures physiques. Enfin, on cherchera une certaine parcimonie dans le codage proposé. La littérature abonde de travaux s'intéressant à la construction de représentations ou de métriques de données complexes principalement en vue de les classer. Toujours pour l'exemple des séries temporelles, plusieurs grandes familles d'approches ont été développées parmi lesquelles nous distinguons : les techniques de modélisation probabiliste paramétrique ou semi-paramétrique à l'aide de modèles de séquences (modèles à espace d'états/HMM, mélange de ces modèles,..) dont certaines sont couplées à des distances ou noyaux spécifiques comme le noyau de Fisher (Marti et al. 2016) les techniques qui s'appuient sur différentes distances et noyaux : distances d'édition, noyaux de Fisher (Chen et al. 2013), distances de Wasserstein (Marti et al. 2016) l'apprentissage de métriques (Bellet et al. 2015) entres séries temporelles les techniques de représentations à travers un dictionnaire (ondelettes, shapelets), les représentations symboliques telles que « frequent itemsets » ou encore SAX (Lin et al. 2003) les techniques de décomposition dans un dictionnaire (ondelettes, shapelets) les approches « deep learning » comme les autoencodeurs (Vincent et al. 2010) ou Machines de Boltzman restreintes (Larochelle, Hausler et al. 2013). Cependant, ces travaux ne sont pas systématiquement associés à l'apprentissage d'une fonction de re-description et à l'étude des propriétés théoriques (bornes, consistance) des estimateurs ainsi construits. Cette thèse s'appuiera sur le cadre des espaces de Hilbert à noyaux auto-reproduisants à valeurs opérateurs qui permet de construire des fonctions à valeurs dans un espace de Hilbert. Ce cadre théorique relativement bien étudié dans le cadre supervisé (Micchelli et Pontil 2005, Carmeli et al. 2010, Brouard et al. 2016) offre une grande flexibilité dans le choix de familles de fonctions considérées et peut être associé à des théorèmes de représentation qui rendent abordables les problèmes d'approximation dans ces espaces. Or, la théorie des espaces de Hilbert à noyaux auto-reproduisant à valeurs opérateurs n'a jusqu'ici pas été exploitée pour l'apprentissage non supervisé. On se propose dans cette thèse d'aborder le problème d'apprentissage de représentations comme celui de l'apprentissage non supervisé d'une fonction de re-description dans ce type d'espace. On s'intéressera au choix de l'espace de Hilbert de sortie qui conditionne le type de représentation, à la définition d'une fonctionnelle de coût pertinente et de nouveaux algorithmes d'apprentissage. On veillera aussi à comparer ce type d'approche avec une approche de base qui consisterait à apprendre un noyau puis à en extraire une re-description de dimension finie. Dans ce cadre on pourra aussi accepter une approche semi-supervisée ou très faiblement supervisée. Enfin, la représentation de séries temporelles quand celles-ci sont multivariées, hétérogènes et non stationnaires pourra constituer un cas d'étude privilégié. Références bibliographiques: Aurélien Bellet, Amaury Habrard, Marc Sebban,Metric Learning. Synthesis Lectures on Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers (2015). C. Brouard, M. Szafranski, F. d'Alché-Buc, Input Output Kernel Regression: Supervised and Semi-Supervised Structured Output Prediction with Operator-Valued Kernels, HAL 01216708 (2015). C. Carmeli, E. De Vito, A. Toigo, V. Umanità, Vector valued reproducing kernel Hilbert spaces and universality, Analysis and Applications 8 (01), 19-61 (2010). C. Häuseler, P. Nawrot, A. Susemihl, M. Opper, Temporal Autoencoding Improves Generative Models of Time Series, arXiv:1309.3103v1 (2013). Hachem Kadri, Emmanuel Duflos, Philippe Preux, Stéphane Canu, Alain Rakotomamonjy, Julien Audiffren, Operator-valued Kernels for Learning from Functional Response Data , 17(20):1−54, (2016). Lexiang Ye , Eamonn Keogh ,Time series shapelets: a new primitive for data mining, KDD'09, (2009). Martin Längkvist, Lars Karlsson, Amy Loutfi, A review of unsupervised feature learning and deep learning for time-series modeling. Pattern Recognition Letters 42: 11-24 (2014) Jessica Lin, Eamonn Keogh Stefano Lonardi Bill Chiu, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, DMKD' 03, J une 13, (2003). Néhémy Lim, Florence d'Alché-Buc, Cédric Auliac, George Michailidis: Operator-valued kernel-based vector autoregressive models for network inference. Machine Learning 99(3): 489-513 (2015). G. Marti, S. Andler, F. Nielsen, P. Donnat, Optimal Transport vs. Fisher-Rao distance between Copulas for Clustering Multivariate Time Series,arXiv:1604.08634 , IEEE Workshop on Statistical Signal Processing 2016 (2016). Mnih, V., Larochelle, H. and Hinton, G. Conditional Restricted Boltzmann Machines for Structured Output Prediction Proc. Uncertainty in Artificial Intelligence. Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol: Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion. Journal of Machine Learning Research 11: 3371-3408 (2010)

  • Titre traduit

    Unsupervised learning of representations with application to time series


  • Résumé

    This thesis aims at developing an unsupervised learning methodology to vector-represent complex and structured data.