Apprentissage de dictionnaire efficace pour de grosses données. Application à l'imagerie cérébrale.

par Arthur Mensch

Projet de thèse en Mathématiques et Informatique

Sous la direction de Bertrand Thirion et de Gaël Varoquaux.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec Centre INRIA Saclay - Île-de-France (laboratoire) , Parietal - Modélisation de la structure, du fonctionnement et de la variabilité du cerveau à partir d'IRM à haut champ (equipe de recherche) et de université Paris-Sud (établissement de préparation de la thèse) depuis le 01-09-2015 .


  • Résumé

    L'imagerie cérébrale fournit une quantification du fonctionnement cérébral qui peut être utilisée pour étudies son organisation dans des cas normaux ou pathologiques. Pour s'assurer que les résultats sont corrects et vont se généraliser, il faut étudier de grandes populations. Alors que de gros efforts ont été faits récemment pour financer l'acquisition de données à grande échelle, il est nécessaire d'adapter les outils d'analyse pour passer à l'échelle. L'apprentissage de dictionnaire est une technique de modélisation très souple, qui permet d'adapter le modèle en fonction des a priori expérimentaux. notre objectif dans ce projet BrainDict est d'améliorer le cadre d'apprentissage de dictionnaire actuel pour l'utiliser sur de grosses données. En particulier, nous allons i) améliorer l'efficacité des estimateurs en tulisant des méthodes de compression adaptées aux données structurées ii) améliorer leur convergence en utilisant des approches de non-convexité graduelle iii) les intégrer avec des schémas d'inférence supervisée. Ces développements seront utilisés pour produire un nouveau type de décompositions des données cérébrales qui s'ajustent correctement, sont stables et peuvent être utilisées par des neuroscientifiques pour modéliser de grands jeux de données avec des capacités de calcul conventionnelles. Ce travail sera diffusé dans des librairies open-source pour être utilisé en neuroimagerie fonctionnelle ou d'autres domaines ayant recours aux données massives structurées.

  • Titre traduit

    Fast dictionary learning for large datasets. Application to brain Imaging


  • Résumé

    Brain imaging provides a quantification of brain function or anatomical organization that can be used to probe its organization under normal and pathological conditions. The only way to ascertain the generalizability of the results to large populations and to increase the chance of making correct inference on brain structure and function is to rely on very large datasets. While huge efforts have been made recently in data acquisition and sharing, the analysis methodology is missing some ways to analyse effectively such big datasets: given their size, this involves designing data compression schemes that do not discard the most important information, yet make further modeling and processing steps tractable. The versatility of Dictionary learning makes it well-suited in this context, as it is possible to tune the model according to relevant, application-dependent priors. Our aim in BrainDict is to improve the current dictionary learning framework for use in big data settings. Specifically we will focus on i) increasing their computational efficiency by relying on alternative compression schemes well suited for structured data, ii) improving their con- vergence by using a gradual non-convexity framework and iii) integrating them with supervised inference schemes. These developments will be used to produce a new generation of brain decompositions that fit accurately train- ing data, are stable and can be used by practitioners to model new large datasets even without large computational facilities. This work will lead to open-source software developments for easy re-use in functional neuroimaging, and most importantly in other fields than neuroimaging that also rely on large structured datasets.