Thèse soutenue

Une méthode itérative régularisée pour la segmentation avec des applications aux statistiques

FR  |  
EN
Auteur / Autrice : Vivien Goepp
Direction : Grégory NuelOlivier Bouaziz
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 27/09/2019
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : MAP5 - Mathématiques Appliquées à Paris 5
Jury : Président / Présidente : Hélène Jacqmin-Gadda
Examinateurs / Examinatrices : Hélène Jacqmin-Gadda, Julien Chiquet, Catherine Legrand, Chantal Guihenneuc-Jouyaux, Jean-Philippe Vert, Jean-Christophe Thalabard
Rapporteurs / Rapporteuses : Julien Chiquet, Catherine Legrand

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse porte sur l’élaboration de méthodes régularisées utilisant l’estimation par maximum de vraisemblance pénalisée. Plus précisément, j’utilise une méthode parcimonieuse itérative, appelée adaptative ridge. Cette dernière est compétitive par rapport à d’autres approches, notamment en termes de facilité de mise en œuvre et de temps de calcul. Mon travail consiste à appliquer cette méthode à un large éventail de problèmes : l’analyse de survie, la régression par splines et la segmentation spatiale. Ces applications dans différentes problématiques montrent que la bonne performance de l’adaptive ridge en sélection, sa grande facilité de mise en œuvre et son faible coût de calcul peuvent en faire un bon point de départ dans les méthodes de sélection de variable par pénalisation. En analyse de la survie, les données sont souvent recueillies en suivant une cohorte, auquel cas les événements sont largement répartis dans le temps et l’échantillon peut présenter une hétérogénéité. Je me concentre d’abord sur le développement d’une méthode d’estimation de l’incidence qui permet de détecter l’hétérogénéité par rapport à la date de naissance (ou cohorte). Un problème proche est l’étude de l’évolution de l’inférence en fonction de l’âge, de la date de naissance (cohort) et de la date calendaire (period). Les épidémiologistes ont longtemps eu recours au modèle age-periodcohort ou à ses sous-modèles. Ces dernières supposent des effets linéaires de chaque variable, ce qui est jugé trop simpliste pour estimer des caractéristiques potentiellement importantes de l’incidence. Dans ce cadre, j’élabore un modèle estimant conjointement l’effet de deux variables et de leur interaction. La régression par splines est connue pour être une méthode performante de régression non paramétrique. Cependant, la spline estimée dépend fortement du choix initial des nœuds et le choix des meilleurs nœuds est un problème difficile en pratique. Je propose une approche permettant l’estimation des meilleurs nœuds conjointement avec la fonction spline. En initiant un grand nombre de nœuds et en supprimant successivement les moins pertinents, ma méthode fait une hypothèse légèrement restrictive pour diminuer grandement le temps de calcul. En statistiques spatiales, le domaine spatial est souvent divisé en "unités" et les données sont recueillies au niveau des unités. L’effet spatial est estimé sur chaque unité et sa représentation est soumise à l’arbitraire de la division de l’unité, ce qui rend son interprétation difficile. Ceci peut être résolu par la régularisation, ce qui réduit la variance et augmente l’interprétabilité. Je présente un modèle de segmentation des données spatiales basé sur la structure d’adjacence des unités.