Thèse soutenue

Apprentissage statistique pour séquences d’évènements à l’aide de processus ponctuels

FR  |  
EN
Auteur / Autrice : Massil Achab
Direction : Emmanuel BacryStéphane Gaïffas
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 09/10/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne)
Jury : Président / Présidente : Nicolas Vayatis
Examinateurs / Examinatrices : Emmanuel Bacry, Stéphane Gaïffas, Vincent Rivoirard
Rapporteurs / Rapporteuses : Manuel Gomez-Rodriguez, Nils Richard Hansen

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le but de cette thèse est de montrer que l'arsenal des nouvelles méthodes d'optimisation permet de résoudre des problèmes d'estimation difficile basés sur les modèles d'évènements.Alors que le cadre classique de l'apprentissage supervisé traite les observations comme une collection de couples de covariables et de label, les modèles d'évènements ne regardent que les temps d'arrivée d'évènements et cherchent alors à extraire de l'information sur la source de donnée.Ces évènements datés sont ordonnés de façon chronologique et ne peuvent dès lors être considérés comme indépendants.Ce simple fait justifie l'usage d'un outil mathématique particulier appelé processus ponctuel pour apprendre une certaine structure à partir de ces évènements.Deux exemples de processus ponctuels sont étudiés dans cette thèse.Le premier est le processus ponctuel derrière le modèle de Cox à risques proportionnels:son intensité conditionnelle permet de définir le ratio de risque, une quantité fondamentale dans la littérature de l'analyse de survie.Le modèle de régression de Cox relie la durée avant l'apparition d'un évènement, appelé défaillance, aux covariables d'un individu.Ce modèle peut être reformulé à l'aide du cadre des processus ponctuels.Le second est le processus de Hawkes qui modélise l'impact des évènements passés sur la probabilité d'apparition d'évènements futurs.Le cas multivarié permet d'encoder une notion de causalité entre les différentes dimensions considérées.Cette thèse est divisée en trois parties.La première s'intéresse à un nouvel algorithme d'optimisation que nous avons développé.Il permet d'estimer le vecteur de paramètre de la régression de Cox lorsque le nombre d'observations est très important.Notre algorithme est basé sur l'algorithme SVRG (Stochastic Variance Reduced Gradient) et utilise une méthode MCMC (Monte Carlo Markov Chain) pour approcher un terme de la direction de descente.Nous avons prouvé des vitesses de convergence pour notre algorithme et avons montré sa performance numérique sur des jeux de données simulés et issus de monde réel.La deuxième partie montre que la causalité au sens de Hawkes peut être estimée de manière non-paramétrique grâce aux cumulants intégrés du processus ponctuel multivarié.Nous avons développer deux méthodes d'estimation des intégrales des noyaux du processus de Hawkes, sans faire d'hypothèse sur la forme de ces noyaux. Nos méthodes sont plus rapides et plus robustes, vis-à-vis de la forme des noyaux, par rapport à l'état de l'art. Nous avons démontré la consistence statistique de la première méthode, et avons montré que la deuxième peut être réduite à un problème d'optimisation convexe.La dernière partie met en lumière les dynamiques de carnet d'ordre grâce à la première méthode d'estimation non-paramétrique introduite dans la partie précédente.Nous avons utilisé des données du marché à terme EUREX, défini de nouveaux modèles de carnet d'ordre (basés sur les précédents travaux de Bacry et al.) et appliqué la méthode d'estimation sur ces processus ponctuels.Les résultats obtenus sont très satisfaisants et cohérents avec une analysé économétrique.Un tel travail prouve que la méthode que nous avons développé permet d'extraire une structure à partir de données aussi complexes que celles issues de la finance haute-fréquence.