Développement et utilisation de nouveaux descripteurs moléculaires à des fins de criblage virtuel en chémogénomique

par Nathanael Weill

Thèse de doctorat en Sciences Chimiques. Chémogénomique

Sous la direction de Didier Rognan.

Soutenue en 2009

à Strasbourg .


  • Résumé

    Depuis des décennies, l’utilisation de petites molécules comme outils d’investigation dans la compréhension des mécanismes cellulaires a été employée. En effet, ces molécules permettent de moduler l’action d’une protéine en se fixant à son site actif. Ainsi, ces modulateurs permettent d’évaluer la fonction de cette protéine et de l’intégrer dans un contexte plus large que représente la cellule ou l’organisme. Le cas échéant, ces molécules peuvent même être employées à des fins thérapeutiques. Plusieurs problèmes se posent lors de la conception de nouveaux modulateurs. Le premier réside dans la difficulté de les identifier. Le deuxième est qu’il est difficile d’évaluer si un modulateur agit également sur une autre protéine. Pour répondre à ces deux problèmes, une approche chémogénomique peut être employée. Afin de mieux comprendre le procédé employé, considérons le problème sous la forme d’une matrice. Chaque colonne de cette matrice représente une protéine et chaque ligne une molécule. Les cases sont remplies par les informations disponibles sur le complexe potentiellement formé entre la protéine et le ligand considéré. Ces informations peuvent être des constantes d’affinités (Ki, IC50…) ou des mesures fonctionnelles (EC50, gène rapporteurs…). Le plus souvent aucune information n’est disponible sur le complexe, la case est alors vide. Afin de remplir ces cases, deux approches basées sur des principes différents sont couramment utilisées. Des molécules similaires peuvent se lier à un même site actif de protéine. Ainsi, de proche en proche il est possible de remplir la matrice par colonne. Cette approche se trouve cependant limitée aux protéines dont des ligands sont connues. Dans le cas contraire (récepteurs orphelins par exemple), cette approche n’est pas envisageable. Des sites de liaison similaires peuvent fixer le même ligand. Ici, on s’attache à remplir la matrice par ligne. Cette approche permet à la fois de trouver de nouveaux ligands pour une protéine donnée ainsi que d’établir un profil de sélectivité pour un ligand. Comme précédemment, cette approche connait une limite. En effet, Il n’est pas possible d’explorer une ligne vide de la matrice (un ligand n’ayant jamais été testé sur aucune protéine). Pour dépasser ces limitations, l’approche chémogénomique se propose de considérer globalement l’ensemble des cases renseignées de la matrice pour remplir les cases vides. Cette approche se base alors sur le principe suivant : Des sites de liaison de protéines similaires peuvent lier des ligands similaires. L’avantage de cette méthode est qu’il est à présent possible de se déplacer dans la matrice de façon oblique et renseigner beaucoup plus de cases. Dans la première partie de cette thèse, nous nous sommes d’abord intéressés aux différentes méthodes chémogénomiques envisagées à ce jour. Cette approche étant récente, elle n’est apparue qu’après l’achèvement du séquençage complet du génome humain (ère post-génomique). Une rapide recherche bibliographique permet de voir que le premier article paru citant le mot « chémogénomique » ne date que de 2001. Toutefois, des progrès considérables ont été réalisés depuis cette date et il est possible à présent de catégoriser cette approche de la manière suivante : 1. Approche chémogénomique basée sur les ligands. Par exemple, cette approche permet de classifier les protéines selon le chémotype de leurs ligands. 2. Approche chémogénomique basée sur les protéines. Cette approche se base sur l’information disponible sur une protéine donnée (séquence, structure…). Il s’agit ici de faire rejaillir des similitudes entre protéines et d’extrapoler cette information aux ligands. 3. Approche chémogénomique basées sur les complexes protéine-ligand. Cette approche ne considère plus le ligand ou la protéine comme deux entités séparées mais comme membres d’un ensemble que constitue le complexe. Dans la deuxième partie de cette thèse sera exposée l’élaboration et la validation d’une nouvelle approche chémogénomique basée sur les complexes protéine-ligand. Cette étude s’est focalisée sur les récepteurs aux protéines G (RCPG) non-olfactifs qui sont au nombre de 366. Les RCPG sont des protéines transmembranaires responsables de la transduction du signal depuis l’extérieur vers l’intérieur de la cellule. En effet, la fixation d’une molécule agoniste sur la protéine du coté extra cellulaire entraine un changement conformationnel qui induit une cascade de réactions du coté intracellulaire. De plus, de part son rôle, cette famille de protéines constitue une des plus importantes familles de cibles d’intérêt thérapeutique. Des modèles statistiques sont crées à partir de vecteurs représentant l’information moléculaire et protéique. Ces modèles sont alors capable de prédire pour une molécule donnée, les cibles potentielles, et pour un récepteur donné les ligands potentiels. Dans la troisième partie de cette thèse nous avons utilisé les modèles précédemment validés dans le cadre d’un criblage prospectif. Il s’agit de trouver de nouvelles molécules agonistes non peptidiques sélectives du récepteur de l’ocytocine. Ce récepteur est impliqué dans divers processus physiologiques chez la femme enceinte (déclenchement des contractions et de la lactation) mais il intervient plus généralement dans les rapports sociaux entres individus (attachement, fidélité) et semble être aussi impliqué dans l’autisme. Quatre méthodes différentes de criblage virtuel ont été employées pour optimiser les chances d’obtenir des touches. Cette partie développe en détaille les méthodes employées ainsi que les problématiques rencontré lors d’une campagne de criblage virtuel. Dans la quatrième partie de cette thèse nous sous sommes attachés à développer de nouveaux descripteurs génériques de site actifs de protéines. Ces descripteurs pourront être employés afin de généraliser le concept de descripteur protéine-ligand à toute protéine de structure tridimensionnelle connue, quelle que soit la famille à laquelle elle appartient (récepteur membranaire, canal, enzyme, récepteur nucléaire). Basés sur la structure des sites actifs, ces descripteurs permettent de représenter sous formes de vecteurs les sites de liaison d’une protéine indépendamment de leur orientation dans l’espace. Ces vecteurs représentent les triangles formés à partir des carbones α du site actif, où chaque nœud représente des propriétés pharmacophoriques. Ces descripteurs pourront soit permettre d’établir une similarité entre les sites actifs de protéines (2ème approche chémogénomique) soit être intégrés dans une représentation de complexe protéine-ligand (3ème approche chémogénomique) à plus vaste échelle que celle précédemment décrite pour l’espace biologique des RCPG.

  • Titre traduit

    Development and use of new molecular descriptor for virtual screening in chemogenomic


  • Résumé

    During decades, small molecules have been to investigate cellular biochemical mechanisms. Indeed, these molecules can modulate the action of a protein by binding to its active site. Thus, these modulators can evaluate the function of a protein and can be integrated into a broader context that represents the cell or the organism. When appropriate, these molecules can even be used for therapeutic purposes. Several problems arise when designing new modulators. The first is the difficulty of identifying them. The second is the difficulty to assess whether a modulator also acts on other proteins. To address these two problems, a chemogenomic approach can be used. To better illustrate this process, consider a matrix. Each column of this matrix represents a protein and each row a molecule. The boxes are filled with the available data on the potential complex formed between the protein and the ligand in question. These data can be either affinity constants (Ki, IC50. . . ) or functional measures (EC50, reporter gene activatate. . . ). In most cases no data is available on the complex, therefore the box is empty. To fill these boxes, two approaches based on different principles are commonly used. Similar molecules can bind to the same active site of a protein. Thus, step by step it is possible to fill the matrix by columns. This approach is however limited to proteins with known ligands. Otherwise (eg orphan receptors), this approach is not feasible. Similar binding sites can bind the same ligand. Here, we seek to fill the matrix by row. This approach achieves both: to find new ligands for a given protein and to establish a selectivity profile for a ligand. Again, this approach has known limits. Indeed, it is not possible to explore an empty row of the matrix (a ligand has never been tested on any protein). To overcome these limitations, a chemogenomic approach intends to fill the whole matrix. This approach is then based on the following principle: Similar binding sites can bind similar ligands. The advantage of this method is that it is now possible to move through the matrix obliquely and fill much more boxes. In the first part of this manuscript, we are interested in different chemogenomics methods proposed to date. Chemogenomic is a new field; it only appeared after the completion of the human genome (post-genomics era). A quick survey of the litterature shows that the first article mentioning the word "chemogenomic" appeared in 2001. However, considerable progress has been made since then and it is now possible to categorize this approach as follows:1. Ligand-based chemogenomic. For example, this approach allows to classify proteins by their ligand chemotypes. 2. Protein-based chemogenomic. This approach is based on available data on a given protein (sequence, structure. . . ) and use protein similarities to extrapolate knowledge on ligands. 3. Protein-ligand-based chemogenomic. This approach no longer considers ligands and proteins as two separate entities but as complexes. In the second part of this thesis, we will explain the development and validation of a new chemogenomic approach based on protein-ligand fingerprints. This study is focused on non-olfactory G protein coupled receptors (366 GPCRs). The GPCRs are transmembrane proteins responsible for signal transduction from outside to inside the cell. Indeed, the binding of agonists on the outer side of the cell causes a conformational change that induces a reaction cascade in the intracellular side. In addition, due to this role, this family of proteins is one of the largest target families for drug development. Statistical models where created from vectors that represent the molecular and protein information. These models are then capable to predict for a given molecule the potential targets and for a given protein the potential ligands. In the third part of this thesis, we used the models previously validated in a prospective screening. The aim of these investigations was to found new molecules, which are non-peptide selective agonists for the oxytocin receptor. This receptor is involved in various physiological processes during pregnancy (trigger contractions and lactation), in the social relations between individuals (commitment, fidelity) and also appears to be involved in autism. Four different methods of virtual screening have been employed to optimize the chances of obtaining hits. This section develops in details the methods used and the problems encountered during a virtual screening campaign. In the fourth part of this thesis, we were interested to develop new generic descriptors of protein active sites. These descriptors can be used to generalize the concept of protein-ligand fingerprints and to handle any protein with known three-dimensional structure, irrespective of the family to which it belongs (membrane receptor channel, enzyme, nuclear receptor). Based on the active sites structure, a vector is derived independently of the orientation in space. This vector represents triangles formed by α-carbons of the binding site residues where each node represents pharmacophores properties. These descriptors may enable to describe a similarity among protein active sites (2nd chemogenomic approach) or be integrated into a representation of protein-ligand complex fingerprints (3rd chemogenomic approach) to a larger scale (all PDB proteins) than previously described for the non-olfactory GPCRs.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol (218 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Notes bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque :
  • Disponible pour le PEB
  • Cote : Th.Strbg.Sc.2009;0219
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.