Une mesure d'inclusion entre objets structurés : application à la classification de molécules

par Samuel Wieczorek

Thèse de doctorat en Informatique

Sous la direction de Mirta B. Gordon et de Gilles Bisson.

Soutenue en 2009

à l'Université Joseph Fourier (Grenoble) .

    mots clés mots clés


  • Résumé

    L'identification de molécules bio-actives est un problème majeur pour la recherche thérapeutique et la recherche en biologie. La découverte de ces molécules repose largement sur le criblage de très grandes collections de molécules mais qui restent petites devant la taille de l'espace chimique. Dans ce contexte, les scientifiques sont demandeurs d'outils d'analyse automatique de chimiothèques et de molécules. L'objectif de cette thèse est de fournir un outil de comparaison des molécules et plus généralement d'objets structurés. Nous proposons dans ce travail un algorithme générique qui identifie plusieurs sous-structures communes à entre deux objets, représentés par des graphes ou des formules logiques et évalue un degré d'inclusion entre ces objets. Ce degré d'inclusion correspond à un test de subsomption à valeur réelle entre formules logiques qui pourrait compléter le test de theta-subsomption classique dans les algorithmes d'apprentissage relationnel. Dans le domaine de la chimie, une mesure de similarité moléculaire a été définie à partir de deux degrés d'inclusion pour classer des molécules. L'algorithme se révèle être plus performant que les mesures de similarité et fonctions noyau auxquelles il a été comparé. Il pourra être envisagé de l'utiliser dans des problèmes de prédiction de bio-activité.


  • Résumé

    The identification of bioactive molecules is a major problem in biology and medicinal chemistry. The discovery of such molecules is mainly based on the screening of large chemical libraries, that are small regarding the size of the chemical space. In this context, scientists need automatic tools to analyze and design rational chemical libraries. The subject of this thesis is to provide a tool that is able to compare molecules or, more generally, structured objects. We propose a generic algorithm which identifies several common substructures between two structured objects (such as graphs or logical formulae), and evaluates an inclusion index between theses objects. This inclusion index corresponds to a real value subsumption test, and should complete the theta subsumption test which is classically used in relational learning algorithms. In the field of chemistry, a molecular similarity measure, defined with two inclusion indexes, allows to classify compounds with respect to their structures. The algorithm is more efficient than the molecular similarity measures or the kernel functions it was compared to. The algorithm may be used to predict the bioactivity of chemical compounds.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (192 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 149 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS09/GRE1/0121/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS09/GRE1/0121
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.