Modèle de régression pour des données non-Euclidiennes en grande dimension. Application à la classification de taxons en anatomie computationnelle.

par Thi Thien Trang Bui

Thèse de doctorat en Mathématiques et Applications

Sous la direction de Jean-Michel Loubès et de Patricia Balaresque.

Soutenue le 14-10-2019

à Toulouse, INSA , dans le cadre de École doctorale Mathématiques, informatique et télécommunications (Toulouse) , en partenariat avec Institut de mathématiques de Toulouse (laboratoire) et de Institut de Mathématiques de Toulouse UMR5219 / IMT (laboratoire) .

Le président du jury était Magalie Fromont-Renoir.

Le jury était composé de Jean-Michel Loubès, Patricia Balaresque, André Mas, Erwan Le pennec, Thanh Mai Pham Ngoc, Laurent Risser, Béatrice Laurent.

Les rapporteurs étaient André Mas, Erwan Le pennec.


  • Résumé

    Dans cette thèse, nous étudions un modèle de régression avec des entrées de type distribution et le problème de test d'hypothèse pour la détection de signaux dans un modèle de régression. Nos modèles ont été appliqués aux données de sensibilité auditive mesurées par otoémissions acoustiques, cette mesure biologique contenant potentiellement des informations annexes sur l'individu (age, sexe, population/espèce).Dans la première partie, un nouveau modèle de régression de distribution pour les distributions de probabilité est introduit. Ce modèle est basé sur un cadre de régression RKHS, dans lequel les noyaux universels sont construits à l'aide de distances de Wasserstein pour les distributions appartenant à l'espace Wasserstein de \Omega, où \Omega est un sous-espace compact de l'espace réel. Nous prouvons la propriété de noyau universel de ces noyaux et utilisons ce cadre pour effectuer des régressions sur des fonctions. Différents modèles de régression sont d'abord comparés à celui proposé sur des données fonctionnelles simulées. Nous appliquons ensuite notre modèle de régression aux réponses de distribution des émissions otoascoutiques évoquées transitoires (TEOAE) et aux prédicteurs réels de l'âge. Dans la deuxième partie, en considérant un modèle de régression, nous abordons la question du test de la nullité de la fonction de régression. Nous proposons tout d'abord une nouvelle procédure de test unique basée sur un noyau symétrique général et une estimation de la variance des observations. Les valeurs critiques correspondantes sont construites pour obtenir des tests non-asymptotiques de niveau \alpha. Nous introduisons ensuite une procédure d'agrégation afin d'éviter le choix complexe du noyau et des paramètres de celui-ci. Les tests multiples vérifient les propriétés non asymptotiques et adaptatives au sens minimax sur plusieurs classes d'alternatives régulières.

  • Titre traduit

    Regression model for high-dimensional non-euclidean data. Application to the classification of taxa in the computational anatomy


  • Résumé

    In this thesis, we study a regression model with distribution entries and the testing hypothesis problem for signal detection in a regression model. We aim to apply these models in hearing sensitivity measured by the transient evoked otoacoustic emissions (TEOAEs) data to improve our knowledge in the auditory investigation. In the first part, a new distribution regression model for probability distributions is introduced. This model is based on a Reproducing Kernel Hilbert Space (RKHS) regression framework, where universal kernels are built using Wasserstein distances for distributions belonging to \Omega) and \Omega is a compact subspace of the real space. We prove the universal kernel property of such kernels and use this setting to perform regressions on functions. Different regression models are first compared with the proposed one on simulated functional data. We then apply our regression model to transient evoked otoascoutic emission (TEOAE) distribution responses and real predictors of the age. This part is a joint work with Loubes, J-M., Risser, L. and Balaresque, P..In the second part, considering a regression model, we address the question of testing the nullity of the regression function. The testing procedure is available when the variance of the observations is unknown and does not depend on any prior information on the alternative. We first propose a single testing procedure based on a general symmetric kernel and an estimation of the variance of the observations. The corresponding critical values are constructed to obtain non asymptotic level \alpha tests. We then introduce an aggregation procedure to avoid the difficult choice of the kernel and of the parameters of the kernel. The multiple tests satisfy non-asymptotic properties and are adaptive in the minimax sense over several classes of regular alternatives.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national des sciences appliquées. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.