Inférence statistique pour les modélisations donnant lieu à un calcul de vraisemblance impossible

par Louis Raynal

Projet de thèse en Biostatistique

Sous la direction de Jean-Michel Marin.

Thèses en préparation à Montpellier , dans le cadre de École Doctorale Information, Structures, Systèmes (Montpellier ; 2015) , en partenariat avec IMAG - Institut Montpelliérain Alexander Grothendieck (laboratoire) depuis le 01-10-2016 .


  • Résumé

    Dans un processus d'inférence statistique, lorsque le calcul explicite de la fonction de vraisemblance associée aux données observées n'est pas possible, il est nécessaire de recourir à des approximations. C'est un cas que l'on rencontre très fréquemment dans certains champs d'application, notamment pour de nombreux modèles de génétique des populations. Face à cette difficulté, deux stratégies peuvent être envisagées. La première consiste à approcher directement la fonction de vraisemblance et utiliser les techniques d'inférence classiques basées sur cette approximation. C'est le cas notamment des méthodes de vraisemblances composites ou des minimisations variationnelles. L'autre possibilité se situe dans le domaine de la statistique bayésienne et consiste à renoncer à estimer la fonction de vraisemblance et à utiliser des méthodes intensives de simulation. Il s'agit de la classe des techniques dites ABC, pour Approximate Bayesian Computation [1]. L'idée de base est de simuler de nouvelles données à partir du modèle, servant de table de référence, et de comparer les réalisations obtenues aux données observées. C'est un champs de recherche extrêmement actif depuis une quinzaine d'années qui a donné lieu à de nombreuses contributions et qui a vu s'opérer un rapprochement entre les techniques d'inférence bayésienne et les méthodes d'apprentissage statistique. Le sujet de thèse se situe dans ce contexte. Dans [2], les auteurs montrent comment l'on peut avantageusement utiliser les forêts aléatoires pour mettre en œuvre une stratégie de choix de modèles dans un cadre ABC. La première partie du travail de recherche consistera à étendre cette méthode à des questions d'estimation de paramètres et à la détermination d'intervalles de crédibilité. Pour ce faire, il est envisagé d'utiliser et d'adapter la méthode Quantile Random Forest introduite par [3]. Des premiers résultats très prometteurs ont d'ores et déjà été obtenus. Toutes les méthodologies développées devront être implémentées dans la bibliothèque R abcrf. Dans la stratégie précédente, la production de la table de référence n'est pas associée aux résultats obtenus par les forêts aléatoires. Nous envisageons une stratégie séquentielle où les éléments de la table de référence seraient générés en tenant compte de résultats préliminaires obtenus à partir de premiers arbres. Nous nous situons ainsi dans le contexte de schémas séquentiels, déjà utilisés en ABC, mais les couplons à des algorithmes d'apprentissage statistique. C'est l'objet de la deuxième partie de la thèse. Dans la troisième partie, en collaboration avec des chercheurs du Centre de Biologie et Gestion des Populations de Montpellier, des études seront menées sur des jeux de données réelles d'espèces invasives. Il s'agira notamment de la drosophile Suzukii, ravageant les cultures européennes, dont les routes d'invasion viennent d'être mises en évidence et dont il faut maintenant estimer des taux de mélanges populationnels. Les observations sont des locus sur le génome de différents individus venant d'une quinzaine de populations réparties sur l'ensemble de la planète. Le modèle sous-jacent est un processus de coalescence pour lequel la vraisemblance n'est pas disponible.

  • Titre traduit

    Statistical inference for intractable likelihood models


  • Résumé

    When the calculation of the likelihood function is intractable, it is necessary to use approximations. This is a very common problem in some application areas, for instance for population genetic models. Faced with this difficulty, two strategies can be considered. The first is to directly approximate the likelihood function and use conventional inference techniques based on this approximation. That is the case of composite likelihood methods and of variational optimization schemes. Another possibility, in the field of Bayesian statistics, is to use intensive simulation techniques. Approximate Bayesian Computation strategies (ABC) [1] belong to this class. The basic idea is to simulate new data from the model and compare them to the observed one. That is a very active research field which results in a rapprochement between Bayesian inference techniques and statistical learning methods. The thesis is in this context. In [2], the authors show how random forests can be used to discriminate between models. The first part of the thesis will be devoted to extend this method in the context of parameter estimation and computation of credibility intervals. The idea is to adapt the Quantile Random Forest technique [3]. Very promising results have already been obtained. All the inference techniques will be implemented in the abcrf R library. We also envision a sequential strategy where the elements of the reference table would be generated by taking into account preliminary random forests results. We thus envision a sequential ABC algorithm. Numerous iterative ABC schemes have already been introduced but none are coupled with statistical learning algorithms. That is the core of the second part of the thesis. In a third part, in collaboration with researchers from the Center for Biology and Management of Populations Montpellier, studies will be conducted on sets of real data of invasive species. This will include suzukii Drosophila for which roads invasion have just been highlighted and for which we have to estimate some admixture rates. Loci on the genome of individuals sampled from populations living in all continents are available. The underlying model is a coalescence process for which the likelihood is not available.