Méthodes du noyau pour l’analyse des données de grande dimension

par Alba Chiara De Vitis

Thèse de doctorat en Sciences et technologies de l'information et de la communication

Sous la direction de Jean-Daniel Boissonnat.

Soutenue le 28-05-2019

à Côte d'Azur , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) , en partenariat avec Université de Nice (1965-2019) (établissement de préparation) , Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) (laboratoire) , Understanding the Shape of Data (laboratoire) et de Inria Sophia Antipolis - Méditerranée (laboratoire) .

Le président du jury était Frédéric Cazals.

Le jury était composé de Frédéric Cazals, Bertrand Michel, Marco Pettini, David Cohen-Steiner, Ilaria Giulini.

Les rapporteurs étaient Bertrand Michel, Marco Pettini.


  • Résumé

    Les nouvelles technologies permettant la collecte de données dépendant d’un nombre de plus en plus important de paramètres, les ensembles de données voient leur dimension devenir de plus en plus grande. Les problèmes théoriques, qui dépendent notamment de la dimension intrinsèque de l’ensemble des données, et les problèmes de calcul, liés à la dimension de l’espace où vivent les données, affectent l’analyse de données en grandes dimensions. Dans cette thèse, nous étudions le problème de l’analyse de données en grandes dimensions en nous plaçant dans le cadre des espaces métriques mesurés. Nous utilisons la concentration de la mesure pour produire des outils capables de décrire la structure des ensembles de données de grandes dimensions. Nous visons à introduire un nouveau point de vue sur l’utilisation des distances et des mesures de probabilité définies sur les données. Plus précisément, nous montrons que les méthodes de noyau, déjà utilisées en petites dimensions intrinsèques pour réduire la dimensionnalité, peuvent être utilisées en grandes dimensions et appliquées à des cas non traités dans la littérature.

  • Titre traduit

    Kernel methods for high dimensional data analysis


  • Résumé

    Since data are being collected using an increasing number of features, datasets are of increasingly high dimension. Computational problems, related to the apparent dimension, i.e. the dimension of the vectors used to collect data, and theoretical problems, which depends notably on the effective dimension of the dataset, the so called intrinsic dimension, have affected high dimensional data analysis. In order to provide a suitable approach to data analysis in high dimensions, we introduce a more comprehensive scenario in the framework of metric measure spaces. The aim of this thesis, is to show how to take advantage of high dimensionality phenomena in the pure high dimensional regime. In particular, we aim at introducing a new point of view in the use of distances and probability measures defined on the data set. More specifically, we want to show that kernel methods, already used in the intrinsic low dimensional scenario in order to reduce dimensionality, can be investigated under purely high dimensional hypotheses, and further applied to cases not covered by the literature.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Côte d'Azur. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.