Apprentissage automatique des interactions du répertoire immunitaire

par Giulio Isacchini

Projet de thèse en Physique

Sous la direction de Aleksandra Walczak, Thierry Mora et de Nour Mohammad Armita.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale Physique en Île-de-France (Paris) , en partenariat avec LABORATOIRE DE PHYSIQUE THÉORIQUE DE L'ENS (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-09-2018 .


  • Résumé

    L'immunité adaptative chez les vertébrés se développe au cours de la vie d'un organisme par des processus de mutation et de sélection, communs à l'évolution darwinienne. Les agents pathogènes adoptent différentes stratégies moléculaires pour surmonter le défi immunitaire. Pour les infections chroniques, la bataille contre le système immunitaire dure plusieurs années chez un patient, par exemple 10 à 15 ans pour le VIH. Pendant ce temps, les symptômes sont mineurs, mais les populations de cellules virales et immunitaires subissent un changement de séquence rapide pour surmonter le défi imposé par l'autre, formant ainsi une course aux armements co-évolutive. Récemment, le séquençage d'un répertoire d'anticorps complet est devenu réalisable, ouvrant une nouvelle voie pour la compréhension quantitative de ce système. L'inférence statistique sur ces données ainsi que la modélisation mécaniste et phénoménologique nous ont beaucoup appris sur l'espace de l'interaction immunitaire qui permet de distinguer les molécules autonomes (protéines de l'hôte) des agents pathogènes non auto-infectants. Cependant, nous ne comprenons toujours pas, sur le plan statistique, à quel point une réponse immunitaire peut être prévisible contre les agents pathogènes en évolution, et donc comment elle peut être contrôlée par des interventions externes (vaccination ou médicaments, par exemple). L'objectif de ce projet de thèse est d'utiliser des méthodes d'apprentissage statistique combinées à des approches d'apprentissage automatique pour développer des modèles prédictifs de la réponse du répertoire immunitaire. La réponse immunitaire comporte de nombreuses composantes des processus évolutifs. Cependant, ses particularités rendent les méthodes génétiques de population existantes insuffisantes pour extraire quantitativement ses caractéristiques dynamiques. Le projet utilisera les données existantes de séquençage du répertoire immunitaire des répertoires de lymphocytes T et B, analysées à l'aide de différentes méthodes statistiques, pour aider les modèles biophysiques aux interactions récepteur immunitaire-antigène. Des approches récentes dans l'analyse des familles de protéines ont montré que la recherche de caractéristiques non locales s'avère souvent plus prometteuse que les interactions par paires. En suivant ces idées, nous explorerons différentes familles de modèles, puis nous essaierons d'extraire les échelles pertinentes des interactions afin de construire des modèles prédictifs co-évolutifs.

  • Titre traduit

    Machine learning of immune repertoire interactions


  • Résumé

    Adaptive immunity in vertebrates develops during the life-time of an organism by processes of mutation and selection, common to Darwinian evolution. Pathogens adopt different molecular strategies to overcome the immune challenge. For chronic infections, the battle against the immune system lasts for years within a patient, e.g., 10-15 years for HIV. During this time, the symptoms are minor, but viral and immune cell populations undergo rapid sequence turnover to overcome the challenge imposed by the other, forming a co-evolutionary arms race. Recently, sequencing an entire antibody repertoire has become feasible, opening a new path for quantitative understanding of this system. Statistical inference on such data together with mechanistic and phenomenological modelling havetaught us a great deal about the space of the immune interaction that can distinguish between self-molecules (proteins of the host) and non-self infecting pathogens. However, we still lack a statistical understanding of how predictable an immune response may be against evolving pathogens, and thus, how controllable it is by external interventions (e.g. vaccination or drugs). The objective of this PhD project is to use statistical learning methods combined with machine learning approaches to develop predictive models of immune repertoire response. Immune response has many components of the evolutionary processes. However, its peculiarities make the existing population genetics methods insufficient to quantitatively extract its dynamical features. The project will use existing immune repertoire sequencing data of T and B-cell repertoires, analyzed through the lense of different statistical methods, to aid biophysical models to immune receptor –antigen interactions. Recent approaches in protein family analysis have shown that searches for non local features often prove more promising than just pairwise interactions. Following these ideas we will explore different families of models and then try to extract the relevant scales of the interactions to build predictive co-evolutionary models.