Méthodes régularisées pour l'analyse de données multivariées : applications à l'étude de données « -omiques » en écologie

par Marie Perrot (Perrot-dockes)

Projet de thèse en Mathématiques aux interfaces

Sous la direction de Céline Levy-leduc et de Julien Chiquet.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec Laboratoire Mathématiques et Informatique Appliquées (Paris) (laboratoire) , Statistique et Génome (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-09-2016 .


  • Résumé

    Mise en place de méthodes de régression pénalisée multivariée pour l'analyse de données "multi-omiques". Pour cela on propose d'étudier le modèle linéaire multivarié : Y = XB + E, (1) où Y est une matrice réponse de taille n × q, X une matrice de design de taille n × p, B une matrice parcimonieuse de coefficients de taille p × q et E une matrice d'erreur de taille n × q. On se place dans le cas où p est fixe et plus petit que n et q peut être beaucoup plus grand que n. Nous avons fait l'hypothèse que les lignes de E sont independantes et que chacune d'entre elles est un vecteur gaussien centré avec une matrice de covariance Σ. Notre but est de faire de la sélection de variables dans le modèle (1) c'est-à-dire identifier à partir de Y et X les valeurs non nulles de B.

  • Titre traduit

    Méthodes régularisées pour l'analyse de données multivariées : applications à l'étude de données « -omiques » en écologie


  • Résumé

    Multivariate regression model for "multi-omic" dataset. We propose a novel variable selection approach in the framework of multivariate linear models taking into account the dependence that may exist between the responses. It consists in estimating beforehand the covariance matrix Σ of the responses and to plug this estimator in a Lasso criterion, in order to obtain a sparse estimator of the coefficient matrix. The properties of our approach are investigated both from a theoretical and a numerical point of view. More precisely, we give general conditions that the estimators of the covariance matrix and its inverse have to satisfy in order to recover the positions of the null and non null entries of the coefficient matrix when the size of Σ is not fixed and can tend to infinity. We prove that these conditions are satisfied in the particular case of some Toeplitz matrices. Our approach is implemented in the R package MultiVarSel available from the Comprehensive R Archive Network (CRAN). We also proposed a novel, efficient and fully data-driven approach for estimating large block structured sparse covariance matrices in the case where the number of variables is much larger than the number of samples without limiting ourselves to block diagonal matrices. This approach is implemented in the R package BlockCov available from the Comprehensive R Archive Network (CRAN).