Analysis jointe de sources de données hétérogènes

par Patricio Cerda Reyes

Projet de thèse en Informatique

Sous la direction de Balazs Kegl et de Gaël Varoquaux.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec Centre INRIA Saclay - Île-de-France (laboratoire) , Parietal - Modélisation de la structure, du fonctionnement et de la variabilité du cerveau à partir d'IRM à haut champ (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    Le monde de la technologie est en effervescence avec le "big data", dans lequel des nombreuses observations du même phénomène permettent la construction de modèles très riches. Cependant, pour une grande variété de domaines d'étude, les observations sont difficiles à obtenir. Par exemple, dans des applications médicales ou sciences de la vie, chaque observation peut être un être humain. Plus généralement, en sciences expérimentales, l'acquisition de points de données nécessite d'effectuer des opérations manuelles, à la différence avec les sources de données Internet qui sont à l'avant "big data". A l'inverse, les progrès dans les capteurs implique que chaque observation est plus riche et plus complexe. Cette croissance de la dimensionnalité des données avec un nombre limité d'observations conduit à un problème statistique difficile, la malédiction de la dimensionnalité. Pourtant, de nombreux domaines d'application comportent de nombreuses acquisitions de données connexes. Par exemple la recherche sur le cancer concerne invariablement génome données, tandis que les cartes de neurosciences à la structure du cerveau ou de la fonction, et la science économique à la série et l'enquête des données de temps financière. Chaque application fait face à une accumulation d'ensembles de données weaklyrelated avec des observations de nature différente, capturer des phénomènes différents, tels que les différents cancers. Le but de ce projet est de développer un cadre de d'apprentissage statistique qui puisse tirer parti de la faiblesse des liens à travers des ensembles de données pour améliorer la tâche statistique sur chacune des données. Techniquement, une option à explorer serait d'apprendre facteurs latents, ou des «représentations» comme on les appelle dans l'apprentissage profond, communs aux tâches multiples. "Mappings" ou noyaux non linéaires peuvent être nécessaires pour faire face à la nature multiple des données. Ce cadre devrait contribuer à l'aide d'une grande variété de jeux de données pour améliorer la prédiction dans des tâches spécifiques distinctes.

  • Titre traduit

    Joint analysis of heterogeneous data sources


  • Résumé

    Background: many small datasets The tech world is abuzz with 'big data', in which many observations of the same phenomenon enable building very rich data-driven models. However, for a wide variety of fields of study, observations are difficult to acquire. For instance in medical applications or life sciences each observation may be a individual human being. More generally, in experimental sciences, acquiring data points requires performing manual operations, unlike with the Internet data sources that are driving forward 'big data'. Conversely, progress in sensors implies that each observation is richer and more complex. This growth in dimensionality of the data with a limited number of observation leads to a challenging statistical problem, the curse of dimensionality. Yet, many application fields involve numerous related data acquisitions. For instance cancer research invariably relates to genome data, while neuroscience maps to brain structure or function, and economical science to financial time series and survey data. Each application faces an accumulation of weakly-related datasets with observations of different nature, capturing different phenomena, such as different cancers. Scientific project: cross-dataset analysis The goal of this project is to develop a statistical-learning framework that can leverage the weak links across datasets to improve the statistical task on each of the dataset. Technically, one option to explore would be to learn latent factors, or 'representations' as they are called in deep learning, common to the multiple tasks. Non-linear mappings or kernels may be necessary to deal with the multiple nature of the data. This framework should help using a wide variety of datasets to improve prediction in specific, separate tasks.