Splines multidimensionnelles pénalisées pour modéliser le taux de survenue d’un événement : application au taux de mortalité en excès et à la survie nette en épidémiologie des maladies chroniques

par Mathieu Fauvernier

Thèse de doctorat en Biostatistiques

Sous la direction de Nadine Bossard et de Laurent Remontet.

Soutenue le 24-09-2019

à Lyon , dans le cadre de École Doctorale Evolution Ecosystèmes Microbiologie Modélisation , en partenariat avec Université Claude Bernard (Lyon) (établissement opérateur d'inscription) et de Laboratoire de Biométrie et Biologie Evolutive (laboratoire) .

Le président du jury était Roch Giorgi.

Le jury était composé de Nadine Bossard, Delphine Maucort-Boulch, Alain Monnereau, Frédéric Planchet.

Les rapporteurs étaient Virginie Rondeau, Erik-André Sauleau, Michal Abrahamowicz.


  • Résumé

    L’étude du temps de survenue d’un événement représente un champ très important des statistiques. Lorsque l’événement étudié est le décès, on cherche à décrire la survie des individus ainsi que leur taux de mortalité, c’est-à-dire la « force de mortalité » qui s’applique à un instant donné. Les patients atteints d’une maladie chronique présentent en général un excès de mortalité par rapport à une population ne présentant pas la maladie en question. En épidémiologie, l’étude du taux de mortalité en excès des patients, et notamment de l’impact des facteurs pronostiques sur celui-ci, représente donc un enjeu majeur de santé publique. D’un point de vue statistique, la modélisation du taux de mortalité (en excès) implique de prendre en compte les effets potentiellement non-linéaires et dépendants du temps des facteurs pronostiques ainsi que les interactions. Les splines de régression, polynômes par morceaux paramétriques et flexibles, sont des outils particulièrement bien adaptés pour modéliser des effets d’une telle complexité. Toutefois, la flexibilité des splines de régression comporte un risque de sur-ajustement. Pour éviter ce risque, les splines de régression pénalisées ont été proposées dans le cadre des modèles additifs généralisés. Leur principe est le suivant : à chaque spline peuvent être associés un ou plusieurs termes de pénalité contrôlés par des paramètres de lissage. Les paramètres de lissage représentent les degrés de pénalisation souhaités. En pratique, ils sont inconnus et doivent être estimés tout comme les paramètres de régression. Dans le cadre de cette thèse, nous avons développé une méthode permettant de modéliser le taux de mortalité (en excès) à l’aide de splines de régression multidimensionnelles pénalisées. Des splines cubiques restreintes ont été utilisées comme splines unidimensionnelles ou bien comme bases marginales afin de former des splines multidimensionnelles par produits tensoriels. Le processus d’optimisation s’appuie sur deux algorithmes de Newton-Raphson emboîtés. L’estimation des paramètres de lissage est effectuée en optimisant un critère de validation croisée ou bien la vraisemblance marginale des paramètres de lissage par un algorithme de Newton-Raphson dit externe. A paramètres de lissage fixés, les paramètres de régression sont estimés par maximisation de la vraisemblance pénalisée par un algorithme de Newton-Raphson dit interne.Les bonnes propriétés de cette approche en termes de performances statistiques et de stabilité numérique ont ensuite été démontrées par simulation. La méthode a ensuite été implémentée au sein du package R survPen. Enfin, la méthode a été appliquée sur des données réelles afin de répondre aux deux questions épidémiologiques suivantes : l’impact de la défavorisation sociale sur la mortalité en excès des patients atteints d’un cancer du col de l’utérus et l’impact de l’âge courant sur la mortalité en excès des patients atteints de sclérose en plaques

  • Titre traduit

    Multidimensional penalized splines for hazard modelling : application to excess mortality hazard and net survival in chronic disease epidemiology


  • Résumé

    Time-to-event analysis is a very important field in statistics. When the event under study is death, the analysis focuses on the probability of survival of the subjects as well as on their mortality hazard, that is, on the "force of mortality" that applies at any given moment. Patients with a chronic disease usually have an excess mortality compared to a population that does not have the disease. Studying the excess mortality hazard associated with a disease and investigating the impact of prognostic factors on this hazard are important public health issues in epidemiology. From a statistical point of view, modelling the (excess) mortality hazard involves taking into account potentially non-linear and time-dependent effects of prognostic factors as well as their interactions. Regression splines (i.e., parametric and flexible piecewise polynomials) are ideal for dealing with such a complexity. They make it possible to build easily nonlinear effects and, regarding interactions between continuous variables, make it easy to form a multidimensional spline from two or more marginal one-dimensional splines. However, the flexibility of regression splines presents a risk of overfitting. To avoid this risk, penalized regression splines have been proposed as part of generalized additive models. Their principle is to associate each spline with one or more penalty terms controlled by smoothing parameters. The smoothing parameters represent the desired degrees of penalization. In practice, these parameters are unknown and have to be estimated just like the regression parameters. This thesis describes the development of a method to model the (excess) hazard using multidimensional penalized regression splines. Restricted cubic splines were used as one-dimensional splines or marginal bases to form multidimensional splines by tensor products. The optimization process relies on two nested Newton-Raphson algorithms. Smoothing parameter estimation is performed by optimizing a cross-validation criterion or the marginal likelihood of the smoothing parameters with an outer Newton-Raphson algorithm. At fixed smoothing parameters, the regression parameters are estimated by maximizing the penalized likelihood by an inner Newton-Raphson algorithm.The good properties of this approach in terms of statistical performance and numerical stability were then demonstrated through simulation. The described method was then implemented within the R package survPen. Finally, the method was applied to real data to investigate two epidemiological issues: the impact of social deprivation on the excess mortality in cervical cancer patients and the impact of the current age on the excess mortality in multiple sclerosis patients


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.