Low-rank methods for heterogeneous and multi-source data

par Geneviève Robin

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Éric Moulines et de Julie Josse.

Soutenue le 11-06-2019

à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec École polytechnique (Palaiseau, Essonne) (établissement opérateur d'inscription) et de Centre de mathématiques appliquées-CMAP [Palaiseau, Essonne] (laboratoire) .

Le président du jury était Francis Bach.

Le jury était composé de Éric Moulines, Julie Josse, Francis Bach, Jérémie Bigot, Stéphane Robin, Gérard Biau, Karim Lounici.

Les rapporteurs étaient Jérémie Bigot, Trevor J. Hastie.

  • Titre traduit

    Méthodes de rang faible pour les données hétérogènes et multi-source


  • Résumé

    Dans les applications modernes des statistiques et de l'apprentissage, il est courant que les données récoltées présentent un certain nombre d'imperfections. En particulier, les données sont souvent hétérogènes, c'est-à-dires qu'elles contiennent à la fois des informations quantitatives et qualitatives, incomplètes, lorsque certaines informations sont inaccessibles ou corrompues, et multi-sources, c'est-à-dire qu'elles résultent de l'agrégation de plusieurs jeux de données indépendant. Dans cette thèse, nous développons plusieurs méthodes pour l'analyse de données hétérogènes, incomplètes et multi-source. Nous nous attachons à étudier tous les aspects de ces méthodes, en fournissant des études théoriques précises, ainsi que des implémentations disponibles au public, et des évaluations empiriques. En particulier, nous considérons en détail deux applications issues de l'écologie pour la première et de la médecine pour la seconde.


  • Résumé

    In modern applications of statistics and machine learning, one often encounters many data imperfections. In particular, data are often heterogeneous, i.e. combine quantitative and qualitative information, incomplete, with missing values caused by machine failure or nonresponse phenomenons, and multi-source, when the data result from the compounding of diverse sources. In this dissertation, we develop several methods for the analysis of multi-source, heterogeneous and incomplete data. We provide a complete framework, and study all the aspects of the different methods, with thorough theoretical studies, open source implementations, and empirical evaluations. We study in details two particular applications from ecology and medical sciences.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : École polytechnique. Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.