Apport des méthodes d'IA pour l'analyse des données d'imagerie de la cohorte BIOMEDE

par Fahad Khalid

Projet de thèse en Imagerie et physique médicale

Sous la direction de Frédérique Frouin.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Electrical, optical, bio-physics and engineering , en partenariat avec Laboratoire d'Imagerie Translationnelle en Oncologie (laboratoire) et de Faculté des sciences d'Orsay (référent) depuis le 30-04-2020 .


  • Résumé

    L'objectif du programme est d'établir l'apport de méthodes éprouvées en intelligence artificielle : approches de type apprentissage automatique (machine learning, ML) et apprentissage profond (deep learning, DL) pour réaliser une analyse robuste des données longitudinales de la cohorte du PHRC BIOMEDE, dédiée aux gliomes infiltrants de la ligne médiane. Des premiers travaux obtenus sur une cohorte mono-centrique ont montré qu'un modèle ML construit à partir des indices radiomiques issus des images d'IRM structurelle provenant d'une base d'apprentissage, (patients d'une cohorte monocentrique constituée à l'Hôpital Necker avant le début de BIOMEDE), permettait de prédire, sur une base de test (patients de la cohorte BIOMEDE imagés à l'Hôpital Necker), indépendante de la base d'apprentissage, les mutations de l'histone H3.3 avec une sensibilité de 85% et une spécificité de 60%. Le premier objectif du travail sera d'adapter et de tester le modèle ML précédemment proposé pour prédire différentes mutations (mutations de l'histone H3, mais aussi mutations des gènes TP53 et ACVR1) sur l'ensemble des données de BIOMEDE, en prenant en compte la spécificité des données multi-centriques. Pour améliorer la comparabilité inter centres, une harmonisation des données radiomiques suivant l'approche ComBat sera mise en œuvre. Un modèle de prédiction pouvant évoluer en fonction de l'arrivée de nouveaux cas disponibles sera proposé et permettra de proposer une prédiction avec un degré de confiance pour les patients n'ayant pas eu de biopsie ou pour lesquels les résultats de biopsie ne seront pas concluants. Des approches DL, mettant en œuvre des réseaux de type ResNet, seront également testées pour prédire les différents types de mutation et leurs performances seront comparées à celles des approches ML. Ces études seront réalisées dans un premier temps sur les images structurelles puis en intégrant, lorsqu'elles sont disponibles, les images fonctionnelles de perfusion et/ou de diffusion. Le second objectif du travail sera de trouver des éléments permettant de caractériser les patients qui survivent le plus longtemps (en l'occurrence ceux qui survivent plus de deux ans). Les premiers résultats obtenus uniquement sur les images structurelles faites au moment du diagnostic d'une petite base de données (38 patients) ont montré la difficulté à stabiliser des modèles prédisant la survie lorsqu'ils dépendent d'un trop grand nombre de paramètres. Pour augmenter la stabilité de ces modèles, les forêts aléatoires de survie avec une forte sélection de variable (« variable hunting ») seront privilégiées et tous les patients pour lesquels les données de survie seront disponibles seront utilisés pour la construction d'un tel modèle. Le troisième objectif consistera à analyser les données d'imagerie longitudinale disponibles pour chaque patient pour mieux caractériser l'évolution de la (des différents sous-types de) tumeur(s), en prenant également en compte les différences dans les traitements thérapeutiques. Après avoir rendu les données d'imagerie longitudinale comparables d'un point d'acquisition à un autre, puis proposé des méthodes permettant d'harmoniser les trajectoires des différents biomarqueurs, pour prendre en compte le fait que les mesures interviennent à des temps différents, des méthodes de classification non supervisées seront proposées pour définir deux ou trois types d'évolution différents, fonction des données d'imagerie, des paramètres cliniques pertinents tel que l'âge des patients et de la stratégie thérapeutique employée.

  • Titre traduit

    Contribution of AI methods for the analysis of imaging data from the BIOMEDE cohort


  • Résumé

    The objective of the program is to establish the contribution of proven methods in artificial intelligence: machine learning (ML) and deep learning (DL) approaches to perform a robust analysis of the longitudinal data of the BIOMEDE cohort, dedicated to diffuse midline gliomas. Initial work performed in our laboratory obtained showed that an ML model constructed from radiomic indices derived from structural MRI images (patients of a mono-centric cohort formed at the Necker Hospital before the start of BIOMEDE cohort defining the learning database), made it possible to predict, on a small test database (first patients of the BIOMEDE cohort imaged at the Necker Hospital), independent of the learning database, the mutations of the histone H3 with a sensitivity of 85% and a specificity of 60%. The first objective of the work will be to adapt and test the previously proposed ML model to predict different mutations (histone H3 mutations, but also mutations in the TP53 and ACVR1 genes) on the whole BIOMEDE database, tackling the difficulties due to the variability of sources (multi-centric data). To improve inter-center comparability, a harmonization of radiomic data following the ComBat approach will be implemented. A prediction model that can evolve according to new available cases will be proposed. We will also propose a prediction providing a degree of confidence in the results, for patients who have not had a biopsy or for whom the biopsy results are inconclusive. DL approaches, using for instance ResNet networks, will also be tested to predict different types of mutations and their performance will be compared to that of ML approaches. These studies will be carried out initially on structural images and then by integrating, when available, functional perfusion and/or diffusion images. The second objective of the work will be to find elements to characterize the patients who survive the longest (in this particular case those who survive more than two years). Initial results obtained only on structural images made at the time of diagnosis from a small database (38 patients) have shown the difficulty of stabilizing models predicting survival when they depend on too many parameters. To increase the stability of these models, random survival forests with a high variable selection ('variable hunting') will be preferred and all patients for whom survival data are available will be used for the construction of such a model. The third objective will be to analyze the longitudinal imaging data available for each patient to better characterize the evolution of the different subtypes of tumor(s), also taking into account the differences in the therapeutic treatments. After defining a transform to make longitudinal imaging data comparable from one time point to another, and then proposing methods to harmonize the trajectories of the different biomarkers, to take into account the fact that the measurements occur at different times, unsupervised classification methods will be proposed to define two or three different types of evolution, depending on the imaging data, relevant clinical parameters such as the age of the patients and the therapeutic strategy employed.