Thèse de doctorat en Mathématiques. Statistiques
Sous la direction de Pascal Massart.
Soutenue en 2004
à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .
Estimation de l'intensité d'un processus de Hawkes double généralisé. Application à la recherche de motifs corépartis le long d'une séquence d'ADN. L'objectif de la thèse est la détection d'éventuelles contraintes de distances entre deux motifs nucléiques le long des génomes. Nous avons ainsi choisi de modéliser les positions d'occurrences de ces motifs par un processus de Hawkes. En effet, dans un tel modèle l'intensité linéaire fait intervenir explicitement deux fonctions décrivant les dépendances entre les motifs. Nous estimons ces fonctions de façon non paramétrique à l'aide de splines, soit par la méthode du maximum de vraisemblance sous contraintes, soit par minimisation d'un contraste de type moindres carrés. Dans chacun des cas, nous étudions une méthode de choix de modèles pour choisir le nombre de noeuds optimal. Ces noeuds peuvent être, selon les cas, équirépartis ou non. La validation de ces méthodes d'estimation est analysée par simulations. Nous les avons aussi appliquées à deux jeux de données génomiques.
Estimation of the intensity of a generalised Hawkes process : application to the detection of correlated words along a DNA squence
Estimation of the intensity of a generalised Hawkes' process. Application to the detection of correlated words along a DNA sequence. The objective of the thesis is the detection of possible constraints on distances between two genomic motifs along the genome. For this, we model the positions of the occurrences of the motifs with a Hawkes' process. In fact, in this model the intensity is linear and explicitly depends on two functions describing the dependence between the motifs. We non parametrically estimate these functions with splines, using the maximum likelihood method under constraints or the minimization of the least square contrast. In each case, we use some model selection method to determine the optimal number of knots. These knots can be regularly spaced or not. The validation of this estimation procedure is analysed by simulations. Two biological applications are studied.