Model-based covariable decorrelation in linear regression (CorReg) : application to missing data and to steel industry

par Clément Théry

Thèse de doctorat en Mathématiques appliquées. Statistiques

Sous la direction de Christophe Biernacki.

Soutenue le 08-07-2015

à Lille 1 , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) , en partenariat avec Laboratoire Paul Painlevé (laboratoire) .

  • Titre traduit

    Décorrélation de covariables à base de modèles en régression linéaire (CorReg) : application aux données manquantes et à l’industrie sidérurgique


  • Résumé

    Les travaux effectués durant cette thèse ont pour but de pallier le problème des corrélations au sein des bases de données, particulièrement fréquentes dans le cadre industriel. Une modélisation explicite des corrélations par un système de sous-régressions entre covariables permet de pointer les sources des corrélations et d'isoler certaines variables redondantes. Il en découle une pré-sélection de variables sans perte significative d'information et avec un fort potentiel explicatif (la structure de sous-régression est explicite et simple). Un algorithme MCMC (Monte-Carlo Markov Chain) de recherche de structure de sous-régressions est proposé, basé sur un modèle génératif complet sur les données. Ce prétraitement ne dépend pas de la variable réponse et peut donc être utilisé de manière générale pour toute problématique de corrélations. Par la suite, un estimateur plug-in pour la régression linéaire est proposé pour ré-injecter l'information résiduelle de manière séquentielle sans souffrir des corrélations entre covariables. Enfin, le modèle génératif complet peut être utilisé pour gérer des valeurs manquantes dans les données. Cela permet l'imputation multiple des données manquantes, préalable à l'utilisation de méthodes classiques incompatibles avec la présence de valeurs manquantes. Le package R intitulé CorReg implémente les méthodes développées durant cette thèse.


  • Résumé

    This thesis was motivated by correlation issues in real datasets, in particular industrial datasets. The main idea stands in explicit modeling of the correlations between covariates by a structure of sub-regressions, that simply is a system of linear regressions between the covariates. It points out redundant covariates that can be deleted in a pre-selection step to improve matrix conditioning without significant loss of information and with strong explicative potential because this pre-selection is explained by the structure of sub-regressions, itself easy to interpret. An algorithm to find the sub-regressions structure inherent to the dataset is provided, based on a full generative model and using Monte-Carlo Markov Chain (MCMC) method. This pre-treatment does not depend on a response variable and thus can be used in a more general way with any correlated datasets. In a second part, a plug-in estimator is defined to get back the redundant covariates sequentially. Then all the covariates are used but the sequential approach acts as a protection against correlations. Finally, the generative model defined here allows, as a perspective, to manage missing values both during the MCMC and then for imputation. Then we are able to use classical methods that are not compatible with missing datasets. Once again, linear regression is used to illustrate the benefits of this method but it remains a pre-treatment that can be used in other contexts, like clustering and so on. The R package CorReg implements the methods created during this thesis.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?