Geometric deep learning for structural bioinformatics

Vincent Mallet

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage profond géométrique pour la bioinformatique structurale

FR |

EN

Auteur / Autrice :	Vincent Mallet
Direction :	Michaël Nilges, Jean-Philippe Vert
Type :	Thèse de doctorat
Discipline(s) :	Génétique, omiques, bioinformatique et biologie des systèmes
Date :	Soutenance le 16/11/2022
Etablissement(s) :	Université Paris Cité
Ecole(s) doctorale(s) :	École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....)
Partenaire(s) de recherche :	Laboratoire : Unité de Bio-Informatique structurale (2015-....)
	Structure de recherche : Institut Pasteur. Département de Biologie structurale et chimie (2006-….)
Jury :	Président / Présidente : Véronique Stoven
	Examinateurs / Examinatrices : Karsten Borgwardt
	Rapporteurs / Rapporteuses : Frédéric Cazals, Alessandra Carbone

Mots clés

FR |

EN

Mots clés contrôlés

Médicaments -- Conception technique

Bioinformatique structurale

Apprentissage profond

Mots clés libres

Apprentissage profond géométrique

Drug design

Résumé

FR |

EN

L'apprentissage automatique a permis plusieurs percées dans la gestion des données tabulaires, d'images ou de texte. Il a également commencé à aider la science, par exemple avec Alphafold, mais son application aux questions scientifiques n'est pas immédiate. Le premier défi consiste à modéliser des objets naturels avec des objets mathématiques représentés dans un ordinateur - comme des images - tout en respectant leurs propriétés physiques. Le deuxième défi est d'étendre les méthodes d'apprentissage à de nouveaux objets mathématiques et numériques avec plus de structure, un domaine de recherche connu sous le nom d'apprentissage profond géométrique. Avoir un éventail plus large d'objets mathématiques nous donne plus de liberté pour modéliser efficacement nos objets naturels pour l'apprentissage automatique. La biologie structurale est un domaine scientifique visant à comprendre le vivant en utilisant les structures tridimensionnelles de molécules importantes, disponibles grâce à des outils expérimentaux et informatiques. Ce domaine s'appuie donc sur des données structurées qui pourraient se prêter à l'apprentissage automatique si les deux défis ci-dessus étaient relevés. Parmi les principales applications de la biologie structurale figure la découverte de médicaments, qui vise à trouver de potentiels médicaments dans un vaste espace de composés chimiques. Dans l'approche centrée sur les cibles thérapeutiques, les structures tridimensionnelles de celles-ci sont utilisées pour sélectionner ces potentiels médicaments. Cette approche pourrait être révolutionnée par l'utilisation de l'apprentissage profond géométrique. Nous commençons par un apport méthodologique qui permet de respecter la structure des molécules d'ADN représentées sous forme de chaînes de caractères. En effet, une telle représentation néglige la symétrie du brin complémentaire qui découle de l'appariement des deux brins de l'ADN. En utilisant la théorie de l'équivariance, nous caractérisons la classe de modèles d'apprentissage automatique qui respectent cette structure supplémentaire. Nous montrons empiriquement qu'utiliser cette classe de modèles améliore la précision de la prédiction de la liaison des facteurs de transcription. Nous préconisons ensuite l'utilisation d'un type spécifique de graphe pour représenter l'ARN en conjonction avec des méthodes d'apprentissage profond pour les graphes. Ce type spécifique de graphes est une représentation gros-grain et discrète introduite par les biochimistes il y a vingt ans. Nous montrons que l'utilisation de cette représentation est supérieure à l'utilisation de graphes de base et suffisante pour extraire un signal pertinent pour la découverte de médicaments ciblant l'ARN. De plus, nous pouvons tirer parti de ce cadre d'apprentissage pour détecter efficacement des motifs structuraux dans l'ARN, en relâchant les contraintes imposées à ces motifs par les outils préexistants. Nous avons publié un package pour utiliser cette représentation dans les applications d'apprentissage automatique. Enfin, nous présentons trois outils pour aider à la découverte de médicaments centrés sur les cibles thérapeutiques qui reposent sur l'apprentissage automatique. Nous proposons un outil dédié à la recherche de sites de liaison aux sites d'interaction protéine-protéine en prédisant simultanément la liaison aux petites molécules et aux protéines. Nous proposons également un outil pour regrouper efficacement les conformations d'une trajectoire de dynamique moléculaire, permettant la sélection de conformations représentatives pertinentes. Enfin, nous proposons une méthode qui génère des populations de composés avec une affinité accrue pour une cible donnée.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage profond géométrique pour la bioinformatique structurale

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage profond géométrique pour la bioinformatique structurale

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses