Estimation de l'intensité d'un processus de Hawkes généralisé double : application à la recherche de motifs corépartis le long d'une séquence d'ADN

par Gaëlle Gusto

Thèse de doctorat en Mathématiques. Statistiques

Sous la direction de Pascal Massart.


  • Résumé

    Estimation de l'intensité d'un processus de Hawkes double généralisé. Application à la recherche de motifs corépartis le long d'une séquence d'ADN. L'objectif de la thèse est la détection d'éventuelles contraintes de distances entre deux motifs nucléiques le long des génomes. Nous avons ainsi choisi de modéliser les positions d'occurrences de ces motifs par un processus de Hawkes. En effet, dans un tel modèle l'intensité linéaire fait intervenir explicitement deux fonctions décrivant les dépendances entre les motifs. Nous estimons ces fonctions de façon non paramétrique à l'aide de splines, soit par la méthode du maximum de vraisemblance sous contraintes, soit par minimisation d'un contraste de type moindres carrés. Dans chacun des cas, nous étudions une méthode de choix de modèles pour choisir le nombre de noeuds optimal. Ces noeuds peuvent être, selon les cas, équirépartis ou non. La validation de ces méthodes d'estimation est analysée par simulations. Nous les avons aussi appliquées à deux jeux de données génomiques.


  • Résumé

    Estimation of the intensity of a generalised Hawkes' process. Application to the detection of correlated words along a DNA sequence. The objective of the thesis is the detection of possible constraints on distances between two genomic motifs along the genome. For this, we model the positions of the occurrences of the motifs with a Hawkes' process. In fact, in this model the intensity is linear and explicitly depends on two functions describing the dependence between the motifs. We non parametrically estimate these functions with splines, using the maximum likelihood method under constraints or the minimization of the least square contrast. In each case, we use some model selection method to determine the optimal number of knots. These knots can be regularly spaced or not. The validation of this estimation procedure is analysed by simulations. Two biological applications are studied.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 246 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.235-237

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2004)188
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.