Sparse high dimensional regression in the presence of colored heteroscedastic noise : application to M/EEG source imaging

par Mathurin Massias

Thèse de doctorat en Mathématiques et Informatique

Sous la direction de Joseph Salmon et de Alexandre Gramfort.

Le président du jury était Gabriel Peyré.

Le jury était composé de Nelly Pustelnik, Olivier Fercoq, Julien Mairal.

Les rapporteurs étaient Mark Schmidt.

  • Titre traduit

    Régression parcimonieuse en grande dimension en présence de bruit coloré hétéroscédastique : application à la localisation de sources M/EEG


  • Résumé

    Parmi les techniques d’imagerie cerébrale, la magneto- et l’électro-encéphalographie se distinguent pour leur faible degré d’invasivité et leur excellente résolution temporelle. La reconstruction de l’activité neuronale à partir de l’enregistrement des champs électriques et magnétiques constitue un problème inverse extr êmement mal posé, auquel il est nécessaire d’ajouter des contraintes pour le résoudre. Une approche populaire, empruntée dans ce manuscrit, est de postuler que la solution est parcimonieuse spatialement, ce qui peut s’obtenir par une pénalisation L2/1. Cependant, ce type de régularisation nécessite de résoudre des problèmes d’optimisation non-lisses en grande dimension, avec des méthodes itératives dont la performance se dégrade avec la dimension. De plus, les enregistrements M/EEG sont typiquement corrompus par un fort bruit coloré, allant à l’encontre des hypothèses classiques de résolution des problèmes inverses. Dans cette thèse, nous proposons d’abord une accélération des algorithmes itératifs utilisés pour résoudre le problème bio-magnétique avec régularisation L2/1. Les améliorations classiques (règles de filtrage et ensemble actifs), tirent parti de la parcimonie de la solution: elles ignorent les sources cérébrales inactives, et réduisent ainsi la dimension du problème. Nous introduisons une nouvelle technique d’ensemble actifs, reposant sur les règles de filtrage les plus performantes actuellement. Nous proposons des techniques duales avancées, qui permettent un contrôle plus fin de l’optimalité et améliorent les techniques d’identification de prédicteurs. Notre construction duale extrapole la structure Vectorielle Autoregressive des iterés duaux, régularité que nous relions aux propriétés d’identification de support des algorithmes proximaux. En plus du problème inverse bio-magnétique, l’approche proposée est appliquée à l’ensemble des modèles linéaires g énéralisés r égularisés L1. Deuxièmement, nous introduisons de nouveaux estimateurs concomitants pour la régression multitâche, conçus pour traiter du bruit gaussien correlé. Le probleme d’optimisation sous-jacent est convexe, et présente une structure “lisse + proximable” attrayante ; nous lions la formulation de ce problème au lissage des normes de Schatten.


  • Résumé

    Understanding the functioning of the brain under normal and pathological conditions is one of the challenges of the 21textsuperscript{st} century.In the last decades, neuroimaging has radically affected clinical and cognitive neurosciences.Amongst neuroimaging techniques, magneto- and electroencephalography (M/EEG) stand out for two reasons: their non-invasiveness, and their excellent time resolution.Reconstructing the neural activity from the recordings of magnetic field and electric potentials is the so-called bio-magnetic inverse problem.Because of the limited number of sensors, this inverse problem is severely ill-posed, and additional constraints must be imposed in order to solve it.A popular approach, considered in this manuscript, is to assume spatial sparsity of the solution: only a few brain regions are involved in a short and specific cognitive task.Solutions exhibiting such a neurophysiologically plausible sparsity pattern can be obtained through L21-penalized regression approaches.However, this regularization requires to solve time-consuming high-dimensional and non-smooth optimization problems, with iterative (block) proximal gradients solvers.% Issues of M/EEG: noise:Additionally, M/EEG recordings are usually corrupted by strong non-white noise, which breaks the classical statistical assumptions of inverse problems. To circumvent this, it is customary to whiten the data as a preprocessing step,and to average multiple repetitions of the same experiment to increase the signal-to-noise ratio.Averaging measurements has the drawback of removing brain responses which are not phase-locked, ie do not happen at a fixed latency after the stimuli presentation onset.%Making it faster.In this work, we first propose speed improvements of iterative solvers used for the L21-regularized bio-magnetic inverse problem.Typical improvements, screening and working sets, exploit the sparsity of the solution: by identifying inactive brain sources, they reduce the dimensionality of the optimization problem.We introduce a new working set policy, derived from the state-of-the-art Gap safe screening rules.In this framework, we also propose duality improvements, yielding a tighter control of optimality and improving feature identification techniques.This dual construction extrapolates on an asymptotic Vector AutoRegressive regularity of the dual iterates, which we connect to manifold identification of proximal algorithms.Beyond the L21-regularized bio-magnetic inverse problem, the proposed methods apply to the whole class of sparse Generalized Linear Models.%Better handling of the noiseSecond, we introduce new concomitant estimators for multitask regression.Along with the neural sources estimation, concomitant estimators jointly estimate the noise covariance matrix.We design them to handle non-white Gaussian noise, and to exploit the multiple repetitions nature of M/EEG experiments.Instead of averaging the observations, our proposed method, CLaR, uses them all for a better estimation of the noise.The underlying optimization problem is jointly convex in the regression coefficients and the noise variable, with a ``smooth + proximable'' composite structure.It is therefore solvable via standard alternate minimization, for which we apply the improvements detailed in the first part.We provide a theoretical analysis of our objective function, linking it to the smoothing of Schatten norms.We demonstrate the benefits of the proposed approach for source localization on real M/EEG datasets.Our improved solvers and refined modeling of the noise pave the way for a faster and more statistically efficient processing of M/EEG recordings, allowing for interactive data analysis and scaling approaches to larger and larger M/EEG datasets.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Télécom Paris. Centre de ressources documentaires numériques (CRDN).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.