Contribution à la statistique en grande dimension et son application au traitement de données biomédicales

par Firas Ibrahim

Projet de thèse en MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Mustapha (EDISCE) Rachdi.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec AUTONOMIE, GÉRONTOLOGIE, E-SANTÉ, IMAGERIE & SOCIÉTÉ (laboratoire) depuis le 02-01-2017 .


  • Résumé

    Dans cette thèse on développe des approches d'estimation non paramétrique de la régression estimation quand les covariables fonctionnelles et incomplètes (surrogate data) ; et la validation d'échantillonnage quand les réponses sont mesurées avec erreurs. Sans aucune hypothèse sur la structure de l'erreur entre les réponses réelles (true reponses) et les données incomplètes (surrogate data), une estimation à noyau qualibrée de la régression peut être obtenue à partir des données validées. Ensuite, on peut montrer que l'estimateur proposé est consistant et est asymptotiquement normal. Il faut conduire une simulation intensive afin de comparer l'estimateur proposé et l'estimateur standard de Nadaraya–Watson construit à partir des données validées et des données observées, respectivement. La suite concerne le modèle linéaire fonctionnel. On introduit des erreurs dans les covariables (cf. Crambes et al. (2009). Reprendre ce dernier travail et l'appliqué à celui de Wang (2006) seulement avec le modèle linéaire. La difficulté se situe dans la structure des données. Ce qui est mathématiquement ardu. Notons, que l'estimateur de Nadaraya–Watson construit à partir des observations complète peut être utilisé comme une référence, malgré qu'il n'est pas accessible, en pratique, à cause des erreurs de mesure. Au niveau des simulations, il faut supprimer quelques observations afin de considérer les données comme incomplètes : on peut prendre les données spectrométriques de masse (données de tecator ou neurologiques issues de travaux de chercheurs de AGEIS) La 2nde partie de cette thèse concerne un nouveau concept permettant de connaitre la structure d'une donnée (une courbe), qui est la technique de la monotonie stochastique de la signature d'une fonction qui a été mise en place par Demongeot et al. (2015). En fait, on se penche sur la séquence des signes qui indiquent si la fonction est croissante ou constante (signe +), ou décroissante (signe -). Si la fonction résulte de la moyenne des observations successives avec des erreurs, le signe de monotonie est une variable binaire aléatoire, dont la densité est étudiée sous deux hypothèses pour la fonction de répartition des erreurs : lois uniforme et gaussienne. Un test statistique simple permettant la comparaison entre les signatures monotones de deux fonctions (par exemple, l'une observée et l'autre comme référence) a été étudié dans Demongeot et al. (2015). Une démarche plus théorique est à prévoir afin de justifier la performance de cette méthode. Des applications sont, également, à prévoir sur quatre exemples biomédicaux, provenant de la génétique, la psychologie, la gérontologie et la morphogenèse. Crambes, C., Sarda, P. and Kneip, A. (2009). Smoothing splines estimators for functional linear regression. Ann. Statist., Volume 37, Number 1 (2009), 35-72. Cardot, H., Crambes, C., Kneip, A. and Sarda, P. (2007). Smoothing splines estimators in functional linear regression with errors-in-variables. Computational Statistics and Data Analysis, special issue on functional data analysis, 51, 4832-4848. [pdf] Wang, Q. (2006). Nonparametric regression function estimation with surrogate functional data and validation sampling. J. Multivariate Analysis, 97, 1142-1161. J. Wittes, E. Lakatos, J. Probstfied, Surrogate endpoints in clinical trails: Cardiovascular diseases, Statist. 
Med. 8 (1989) 415–425. 
 Demongeot, J., Galli Carminati, G., Carminati, F., Rachdi, M. (2015). Stochastic monotony signature and biomedical applications. C R Biol. 2015 Dec;338(12):777-83.

  • Titre traduit

    Contribution to high dimension statistics and biomedical data analysis


  • Résumé

    In this thesis we develop, first, nonparametric estimation approaches of regression estimation when functional and incomplete covariates (surrogate data) are available; And then, when sampling validation when responses are measured with errors. Without any hypothesis on the structure of the error between the true responses and the incomplete data, a qualitative kernel estimate of the regression can be obtained from the validated data. Then, we can show that the proposed estimator is consistent and is asymptotically normal. An intensive simulation is required to compare the proposed estimator and the standard Nadaraya-Watson estimator constructed from validated data and observed data, respectively. The next step concerns the functional linear model when errors are introduced into the covariates (see Crambes et al., 2009). We have to resume this last work and apply it to that of Wang (2006) only with the linear model. The difficulty lies in the structure of the data. This is mathematically arduous. It should be noted that the Nadaraya-Watson estimator constructed from complete observations can be used as a reference, although it is not accessible in practice because of measurement errors. At the simulation level, it is necessary to remove some observations in order to consider the data as incomplete: one can then take mass spectrometric data (data of tecator or neurological which are produced in AGEIS laboratory). The second part of this thesis concerns a new concept allowing to know the structure of a data (a curve), which is the technique of the stochastic monotony of the signature of a function which was put in place by Demongeot et al. (2015). In fact, we look at the sequence of signs that indicate whether the function is increasing or constant (sign +), or decreasing (sign -). If the function results from the average of the successive observations with errors, the sign of monotony is a random binary variable whose density is studied under two hypotheses for the error distribution function: uniform and Gaussian. A simple statistical test allowing the comparison between the monotonic signatures of two functions (for example, one observed and the other as a reference) was studied in Demongeot et al. (2015). A more theoretical approach is needed to justify the performance of this method. Applications are also to be expected on four biomedical examples, derived from genetics, psychology, gerontology and morphogenesis.