Estimation de l'intensité d'un processus de Hawkes généralisé double : application à la recherche de motifs corépartis le long d'une séquence d'ADN
Auteur / Autrice : | Gaëlle Gusto |
Direction : | Pascal Massart |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques. Statistiques |
Date : | Soutenance en 2004 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Résumé
Estimation de l'intensité d'un processus de Hawkes double généralisé. Application à la recherche de motifs corépartis le long d'une séquence d'ADN. L'objectif de la thèse est la détection d'éventuelles contraintes de distances entre deux motifs nucléiques le long des génomes. Nous avons ainsi choisi de modéliser les positions d'occurrences de ces motifs par un processus de Hawkes. En effet, dans un tel modèle l'intensité linéaire fait intervenir explicitement deux fonctions décrivant les dépendances entre les motifs. Nous estimons ces fonctions de façon non paramétrique à l'aide de splines, soit par la méthode du maximum de vraisemblance sous contraintes, soit par minimisation d'un contraste de type moindres carrés. Dans chacun des cas, nous étudions une méthode de choix de modèles pour choisir le nombre de noeuds optimal. Ces noeuds peuvent être, selon les cas, équirépartis ou non. La validation de ces méthodes d'estimation est analysée par simulations. Nous les avons aussi appliquées à deux jeux de données génomiques.