Analyse supervisée multibloc en grande dimension

par Hadrien Lorenzo

Thèse de doctorat en Santé publique Biostatistique

Sous la direction de Rodolphe Thiébaut et de Jérôme Saracco.

Thèses en préparation à Bordeaux , dans le cadre de Sociétés, Politique, Santé Publique , en partenariat avec Bordeaux Research Center for Population Health (laboratoire) .


  • Résumé

    L'apprentissage automatique ou statistique consiste à apprendre à partir de données. L'apprentissage supervisé consiste à prédire ou classer selon un label, une annotation à partir de caractéristiques mesurées chez un même individu. Dans le cas de la vaccination, ou dans d'autres cas dont certains présentés dans ce manuscrit, la quantité de données dépasse le nombre d'individus observés, c'est un cas dégénéré d'analyse statistique qui nécessite l'utilisation de méthodes spécifiques. Les propriétés des algorithmes de régularisation permettent de gérer ces cas. Il en existe plusieurs types en fonction de la structure des données et du problème étudiés. Dans le cas de ce travail, l'idée est d'utiliser la connaissance que l'on a des décompositions en éléments propres appliquées aux matrices de covariances transformées via un opérateur de seuillage doux. Cette solution est particulièrement peu coûteuse en termes de temps de calcul et permet la sélection des variables d'intérêt. Nous nous sommes centrés sur les données qualifiées d'hétérogènes, c'est à dire des jeux de données qui sont issus de sources distinctes ou de technologies distinctes. On parle aussi de données multiblocs. Les coûts d'utilisation de certaines technologies pouvant être prohibitifs, il est souvent choisi de ne pas acquérir certaines données sur l'ensemble d'un échantillon, mais seulement sur un sous-échantillon d'étude. De la même manière, si une technologie est particulièrement sensible aux conditions expérimentales, il arrive que certaines données, pourtant requises, ne soient pas complètes. Dans ces deux cas, le jeu de données se retrouve amputé d'une partie non négligeable de l'information. La structure des données associée à ces défauts d'acquisition induit une répartition elle-même multibloc de ces données manquantes, on parle alors de données manquantes par blocs. Le second objectif de notre méthode est de gérer ces données manquantes par blocs en s'appuyant sur l'information à prédire. Ceci dans le but de créer un modèle prédictif qui puisse gérer les données manquantes aussi bien pour le jeu de données d'entraînement que pour celui de test. Cette méthode emprunte au seuillage doux afin de sélectionner les variables d'intérêt et ne nécessite que deux paramètres à régler qui sont le nombre de composantes et le nombre de variables à sélectionner parmi les covariables. Ce paramétrage est classiquement réalisé par validation croisée. La méthode développée a fait l'objet de simulations la comparant aux principales méthodes existantes. Elle montre d'excellents résultats en prédiction et en termes de temps de calcul. Elle a aussi été appliquée à plusieurs jeux de données. L'ensemble de ces résultats est accessible aux travers de quatre publications dont une est en relecture et les trois autres sont déjà parues.

  • Titre traduit

    Supervised analysis of high dimensional multibloc data


  • Résumé

    Statistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches.