Mise en place d'une chimiothèque de composés actifs et inactifs sur 27 récepteurs nucléaires validés expérimentalement, et benchmark d'outils de criblage structure-based et ligand-based

par Manon Reau (Réau)

Projet de thèse en Bioinformatique

Sous la direction de Matthieu Montes et de Jean-François Zagury.

Thèses en préparation à Paris, CNAM , dans le cadre de SMI - Sciences des Métiers de l'Ingénieur , en partenariat avec Laboratoire Génomique, bioinformatique et applications (Paris) (laboratoire) depuis le 01-10-2016 .


  • Résumé

    Projet initial : Extension de la base de donnée de benchmark dédiée aux récepteurs nucléaires NRList (Nuclear Receptors Ligands and Structures Benchmarking DataBase). La NRList est actuellement composée de 9905 molécules actives sur 27 récepteurs nucléaires et classées en fonction du type d'activité (agoniste/ antagoniste) ainsi que de 335 structures extraites de la PDB. Cette base de données a été nettoyée manuellement afin de corriger les erreurs d'annotations générées par les algorithme de text mining utilisés dans certaines bases de données publiques (ex: PubChem et ChEMBL). L'objectif au cours de ma thèse est de la compléter avec des données d'affinité de liaison, notamment avec des molécules qui n'ont montré qu'une faible voire aucune affinité pour le récepteur sur lequel elles ont été testées, afin de construire une nouvelle base de benchmark avec de vraies molécules inactives utilisées en guise de decoys. Une analyse approfondie des données recueillies permettra de définir des sous-jeux de données pertinents pour une évaluation non biaisée des différents outils de criblage virtuel. Dans un second temps le recensement des protéines disponibles sur la PDB pour ces 27 récepteurs nucléaires sera mis à jour. Enfin, des outils de criblage virtuel basés sur la structure (docking) et sur le ligand (pharmacophores) seront mis à l'épreuve, nous testerons notamment leur capacité à discriminer les molécules actives des molécules inactives bien qu'elles soient issues des mêmes séries chimiques, s'attaquant ainsi à des cas de figures difficiles apparentés à l'activity cliff. Avancement actuel : J'ai construit la base de donnée NR-DBIND disponible gratuitement en ligne (http://nr-dbind.drugdesign.fr/) qui contient des données d'affinité et d'activité entre des petites molécules et des récepteurs nucléaires. Au total 15116 données d'interaction ont été répertoriées et annotées pour 27 récepteurs nucléaires. Le point clé de cette base de donnée est qu'elle intègre des données d'inactivité qui pourront être utilisées pour la construction et l'évaluation de modèles. Actuellement, j'effectue un benchmark d'outils de criblage virtuel (docking + pharmacophores 3D) à partir de différents jeux de données extraits de la NR-DBIND afin de répondre aux questions suivantes : 1 - l'intégration de données d'inactivité permet elle d'orienter vers un choix de docking d'ensemble ou ou de docking sur une seule structure ? 2 - L'intégration de données d'inactivité dans la construction de modèles pharmacophoriques 3D permet elle d'améliorer la spécificité de notre modèle ? 3 - La précision des données nous permet elle de construire des modèles suffisamment robustes pour prédire des interactions déjà connues et des interactions potentielles entre des récepteurs nucléaires sélectionnés et des perturbateurs endocriniens référencés dans la littérature ? A terme, l'objectif est d'utiliser des données et des outils les plus adaptés possible à la prédiction du risque de perturbation endocrinienne, ou encore à l'identification de molécules thérapeutiques dans le cadre des récepteurs nucléaires.

  • Titre traduit

    Construction of a small molecules data base gathering both active and inactive compounds for 27 nuclear receptors, and benchmark of structure-based and ligand based screening software.


  • Résumé

    Extension of the NRList benchmark database dedicated nuclear receptors (Nuclear Receptors Ligands and Structures Benchmarking DataBase). The NRList is currently composed of 9905 active molecules on 27 nuclear receptors and classified according to their activity (agonist / antagonist), as well as 335 structures extracted from the PDB. This database has been manually cleaned to correct annotation errors generated by the text mining algorithm used in some public databases (e.i. PubChem and ChEMBL). During my thesis, the objective is to complete the NRList with binding affinity data, especially with molecules that shown little to no affinity for the receptor on which they were tested, in order to construct a new benchmark database with real inactive molecules used as decoys. A thorough analysis of the data collected will enable the definition of relevant subsets for an unbiased evaluation of the various virtual screening tools. In a second step, proteins available on the PDB for these 27 nuclear receptors will be updated and added. Finally, structure-based (docking) and ligand-based (pharmacophores) virtual screening tools will be tested. We will test in particular their ability to discriminate the active molecules from the inactive molecules although they come from the same chemical series, thus addressing difficult cases related to cliff activity.