CD Prioritaire - Structures de dépendance complexes pour modèles à composantes supervisées

par Jocelyn Chauvet

Projet de thèse en Biostatistique

Sous la direction de Catherine Trottier.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec IMAG - Institut Montpelliérain Alexander Grothendieck (laboratoire) et de EPS - Equipe de Probabilités et Statistique (equipe de recherche) depuis le 01-10-2015 .


  • Résumé

    Une forte redondance des régresseurs cause de gros problèmes d'identifiabilité et, par conséquent, d'instabilité des coefficients dans les modèles de régression. Elle entraîne en outre, même lorsque l'estimation est possible, la quasi-impossibilité d'en interpréter les résultats. C'est typiquement le cas lorsqu'une grande quantité d'information est récoltée parmi les variables explicatives d'un phénomène mesuré de manière multivariée. Pour rendre l'estimation de tels modèles possible, il est indispensable de combiner à leur vraisemblance un critère supplémentaire qui a pour effet de régulariser l'estimateur. Dans les méthodes classiques de régularisation que sont Ridge et Lasso, ce critère supplémentaire est une pénalité sur la norme du vecteur des coefficients de régression. La pénalisation de cette norme permet de limiter la confusion des effets entre régresseurs redondants, mais ne facilite pas nécessairement l'interprétation du modèle estimé. Les méthodes de régression sur composantes principales facilitent quelque peu l'interprétation du modèle estimé, mais n'optimisent guère la prédiction, dans la mesure où ces composantes ne sont pas supervisées par les variables à prédire. Dans le sillage de la régression PLS, une autre technique de régularisation a été proposée, d'abord pour les modèles linéaires multivariés ordinaires à équations multiples, par [Bry, Verron, Redont & Cazes, 2012]. Cette technique est fondée sur l'extraction de composantes supervisées porteuses d'une information utile et forte dans l'espace des régresseurs. Ces composantes, contraintes à l'orthogonalité entre elles, doivent non seulement capturer l'information structurelle des régresseurs, mais aussi prédire autant que possible les variables dépendantes, qui sont de types divers (continues ou discrètes, quantitatives, ordinales ou nominales). Les composantes permettent de décomposer la prédiction sur des directions robustes et interprétables dans lesquelles chaque régresseur continue de jouer un rôle. La technique des composantes supervisées a été étendue aux modèles linéaires généralisés par [Bry, Trottier, Verron, Mortier, 2013] et [Bry, Trottier, Verron, Mortier, Cornu 2014]. Jusqu'ici, elle n'a toutefois concerné que les modèles à observations indépendantes. Or, dans de nombreuses situations concrètes, ces dernières sont interdépendantes : observations répétées et données multi-niveaux en écologie et sciences humaines - notamment en épidémiologie - séries temporelles, données spatiales... Il s'avère donc essentiel de procéder à l'extension de la méthode aux données à structure de dépendance complexe entre observations. Nous proposons, au cours de ce travail de thèse, d'explorer les façons de prendre en compte diverses formes de dépendance entre observations lors de la recherche de composantes dans les modèles. Il s'agit donc à la fois de proposer de nouvelles modélisations mais de développer aussi les outils nécessaires pour l'estimation des paramètres de ces modèles. Un travail algorithmique consistant est aussi attendu pour nourrir un package R que nous avons développé ces dernières années, nommé SCGLR.

  • Titre traduit

    Introducing complex dependency structures into supervisedcomponents- based models.


  • Résumé

    High dimension and redundancy of regressors result in identification troubles and a severe lack of stability in estimation of regression models. Another consequence is, even when estimation is possible, the near-impossibility to interpret its results. Such is typically the case of models of a phenomenon richly described through a high number of variables. To make estimation of such models feasible, it is necessary to combine to its likelihood an extracriterion, so that maximizing the combination yields regularised estimators. In such classical methods as Ridge and Lasso Regressions, this extra-criterion is a penalty on some norm of coefficient-vector. Penalising this norm allows to reduce the effect-transfer between redundant regressors, but does not necessarily make interpretation of the estimated model easier. Regression on principal components, on the other hand, do make interpretation easier but do not optimise prediction, insofar as these components are not supervised by the model's dependent variables. In the wake of PLS Regression, a component-based regularized regression technique has been proposed, first for multiple-equation multivariate ordinary linear models, by [Bry, Verron, Redont & Cazes, 2012]. This technique is based on the extraction of supervised components conveying a useful and strong information in the regressor-space. These components, subject to an orthogonality constraint, must both capture as much of the structural information of the regressors as they can, and be the best possible base for predicting dependent variables of miscellaneous types (continuous or discrete, numeric or categorical). Such components allow to decompose the predictions on robust and interpretable dimensions in which each original regressor plays a role. The supervised-component technique has then been extended to Generalised Linear Models by [Bry, Trottier, Verron, Mortier, 2013] and [Bry, Trottier, Verron, Mortier, Cornu 2014]. So far, it only deals with models assuming observations are independent. Yet, in many practical situations, such an assumption doesn't hold: repeated or multi-level observations in environment and social data, including epidemiology, time-series, spatial data... So, it is of essence to proceed and extend the method to data with a complex dependency structure between observations. We propose, in this PhD research work, to explore ways to take into account various kinds of inter-observation dependency when searching regressor-spaces for components to base models on. Thus, the work will consist both in designing new models, working up statistical tools to estimate them, and implement these tools into the SCGLR R-software we have started developing these past years.