De l’utilisation des données publiques pour la prédiction de la toxicité des produits chimiques

par Ingrid Grenet

Thèse de doctorat en Informatique

Sous la direction de Jean-Paul Comet.

Soutenue le 09-07-2019

à l'Université Côte d'Azur (ComUE) , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) , en partenariat avec Université de Nice (1965-2019) (établissement de préparation) , Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) (laboratoire) et de Scalable and Pervasive softwARe and Knowledge Systems (laboratoire) .

Le président du jury était Céline Rouveirol.

Le jury était composé de Céline Rouveirol, Mohamed Elati, Olivier Taboureau, Lysiane Richert, David Rouquié.

Les rapporteurs étaient Mohamed Elati, Olivier Taboureau.


  • Résumé

    L’évaluation de la sécurité des composés chimiques repose principalement sur les résultats des études in vivo, réalisées sur des animaux de laboratoire. Cependant, ces études sont coûteuses en terme de temps, d'argent et d'utilisation d'animaux, ce qui les rend inadaptées à l'évaluation de milliers de composés. Afin de prédire rapidement la toxicité potentielle des composés et de les prioriser pour de futures études, des solutions alternatives sont actuellement envisagées telles que les essais in vitro et les modèles prédictifs d'apprentissage automatique. L’objectif de cette thèse est d’évaluer comment les données publiques de ToxCast et ToxRefDB peuvent permettre de construire de tels modèles afin de prédire les effets in vivo induits par les composés, uniquement à partir de leur structure chimique. A cette fin, et après pré-traitement des données, nous nous focalisons d’abord sur la prédiction de la bioactivité in vitro à partir de la structure chimique puis sur la prédiction des effets in vivo à partir des données de bio-activité in vitro. Pour la prédiction de la bio-activité in vitro, nous construisons et testons différents modèles de machine learning dont les descripteurs reflètent la structure chimique des composés. Puisque les données d'apprentissage sont fortement déséquilibrées en faveur des composés non toxiques, nous testons une technique d'augmentation de données et montrons qu’elle améliore les performances des modèles. Aussi, par une étude à grande échelle sur des centaines de tests in vitro de ToxCast, nous montrons que la méthode ensembliste "stacked generalization" mène à des modèles fiables sur leur domaine d'applicabilité. Pour la prédiction des effets in vivo, nous évaluons le lien entre les résultats des essais in vitro ciblant des voies connues pour induire des effets endocriniens et les effets in vivo observés dans les organes endocriniens lors d'études long terme. Nous montrons que, de manière inattendue, ces essais ne sont pas prédictifs des effets in vivo, ce qui soulève la question essentielle de la pertinence des essais in vitro. Nous faisons alors l’hypothèse que le choix d’essais capables de prédire les effets in vivo devrait reposer sur l’utilisation d'informations complémentaires comme, en particulier, les données mécanistiques.

  • Titre traduit

    Evaluation of the use of public toxicological data for chemical hazard prediction through computational methods


  • Résumé

    Currently, chemical safety assessment mostly relies on results obtained in in vivo studies performed in laboratory animals. However, these studies are costly in term of time, money and animals used and therefore not adapted for the evaluation of thousands of compounds. In order to rapidly screen compounds for their potential toxicity and prioritize them for further testing, alternative solutions are envisioned such as in vitro assays and computational predictive models. The objective of this thesis is to evaluate how the public data from ToxCast and ToxRefDB can allow the construction of this type of models in order to predict in vivo effects induced by compounds, only based on their chemical structure. To do so, after data pre-processing, we first focus on the prediction of in vitro bioactivity from chemical structure and then on the prediction of in vivo effects from in vitro bioactivity data. For the in vitro bioactivity prediction, we build and test various models based on compounds’ chemical structure descriptors. Since learning data are highly imbalanced in favor of non-toxic compounds, we test a data augmentation technique and show that it improves models’ performances. We also perform a largescale study to predict hundreds of in vitro assays from ToxCast and show that the stacked generalization ensemble method leads to reliable models when used on their applicability domain. For the in vivo effects prediction, we evaluate the link between results from in vitro assays targeting pathways known to induce endocrine effects and in vivo effects observed in endocrine organs during longterm studies. We highlight that, unexpectedly, these assays are not predictive of the in vivo effects, which raises the crucial question of the relevance of in vitro assays. We thus hypothesize that the selection of assays able to predict in vivo effects should be based on complementary information such as, in particular, mechanistic data.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Côte d'Azur. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.