Quelques approches pour la détection de ruptures à horizon fini

par Emilie Lebarbier

Thèse de doctorat en Mathématiques

Sous la direction de Marc Lavielle.


  • Résumé

    Cette thèse est consacrée à la détection de ruptures multiples. Dans une première partie, nous considérons le cas de ruptures dans la moyenne d'un signal gaussien. Dans le chapitre 1, nous adoptons une approche bayésienne : nous estimons la distribution a posteriori de la configuration des instants de ruptures par des méthodes de Monte Carlo par chaînes de Markov. Une version stochastique de l'algorithme EM est utilisé pour estimer les hyper-paramètres du modèle. Dans le chapitre 2, le problème est posé comme l'estimation non-paramètrique par sélection de modèle d'une fonction s constante par morceaux en minimisant un critère des moindres carrés pénalisé. Nous donnons la pénalité et une borne de risque non-asymptotique de l'estimateur pénalisé. La pénalité est fonction de deux constantes et de la variance du bruit qui sont des quantités inconnues. Dans le chapitre 3, nous déterminons à variance connue les valeurs optimales des deux constantes pour toute fonction s et toute taille d'échantillon par une étude de simulation. Dans le chapitre plutôt que d'estimer la variance, nous utilisons une méthode heuristique qui consiste à trouver la bonne pénalité en fonction des données. Nous calibrons cette méthode et étudions sa performance par des études de simulations. Dans le chapitre 5, nous proposons un algorithme hybride combinant l'algorithme CART avec cette méthode pour l'application sur des échantillons de très grande taille. Dans une seconde partie, nous considérons le cas de ruptures dans la distribution marginale d'une suite de variables aléatoires discrètes indépendantes. Dans le chapitre 6, nous relions la distribution des variables à une fonction s que nous estimons en maximisant la vraisemblance pénalisée et donnons une borne de risque de l'estimateur obtenu. Dans le chapitre 7, nous adaptons l'algorithme hybride proposé dans le chapitre 5 pour la détection de régions homogènes des séquences d'ADN de deux bactéries.


  • Résumé

    This thesis is devoted to the detection of multiple change-points. The first part considers the case of change-points in the mean for Gaussien signal. In Chapter 1, we adopt a bayesien approach: the posterior distribution of the change-points sequence is estimated by Monte Carlo by Markov chain methods. A stochastic version of the EM algorithm is used for estimating the hyper-parameters of the model. In Chapter 2, the change-points and the means are simultaneously estimated by recovering the underlying piecewice constant function denoted by s which is a penalized least-square estimator. We give the penalty form and a non-asymptotic risk bound for the corresponding penalized estimator. The penalty depends on two constants and the noise level which are unknown. In Chapter 3, given known variance we determine the optimal values for the two constants for any function s and size of sample by simulation study. In Chapter 4, rather than estimating the noise level, a heuristic method is used to estimate the penalty itself using the data. We calibrate it and test it on various simulated data sets. In Chapter 5, we propose an hybrid algorithm combining the CART algorithm and a partial exhaustive search for the application for large samples. The second part considers the case of change-points in the distribution of a sequence of independant random variables. In Chapter 6, we associate the distribution to a function s which we estimate by maximizing the penalized likelihood and we give a risk bound for the obtained estimator. In Chapter 7, we adapt the hybrid algorithm proposed in Chapter 5 to detect homogeneous regions in DNA sequences of two bacteria.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 195 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.189-[193]

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : M/Wg ORSA(2002)141
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : LEBA
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.