Thèse soutenue

Caractérisation et plongement de sous-graphes colorés : application à la construction de modèles structures à activité (QSAR)
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Nicolas Bloyet
Direction : Pierre-François MarteauEmmanuel Frénod
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/12/2019
Etablissement(s) : Lorient
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Equipe de recherche : Institut de recherche en informatique et systèmes aléatoires (Rennes)
Laboratoire : Institut de Recherche en Informatique et Systèmes Aléatoires / IRISA - Laboratoire de Mathématiques de Bretagne Atlantique / LMBA
Jury : Président / Présidente : Luc Brun
Examinateurs / Examinatrices : Rumen Andonov, Manuel Allain
Rapporteurs / Rapporteuses : Dominique Barth, Sophie Tison

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans le domaine de la chimie, il est intéressant de pouvoir estimer des propriétés physico- chimiques de molécules, notamment pour des applications industrielles. Celles-ci sont difficiles à estimer par simulations physique, présentant une complexité temporelle prohibitive. L'émergence des données (publiques ou privées) ouvre toutefois de nouvelles perspectives pour le traitement de ces problèmes par des méthodes statistiques et d'apprentissage automatique. La principale difficulté réside dans la caractérisation des molécules : celles-ci s'apparentent davantage à un réseau d'atomes (autrement dit un graphe coloré) qu'à un vecteur. Or, les méthodes de modélisation statistiques traitent usuellement avec des observations encodées comme telles, d'où la nécessité de méthodes spécifiques, nommées relations structures-activité, traitant des observations encodées sous forme de graphes. Le but de cette thèse est de tirer parti des corpus publics pour apprendre les meilleures représentations possibles de ces structures, et de transférer cette connaissance globale vers des jeux de données plus restreints. Nous nous inspirons pour ce faire de méthodes utilisées en traitement automatique des langages naturels. Pour les mettre en œuvre, des travaux d'ordre plus théorique ont été nécessaires, notamment sur le problème d'isomorphisme de graphes. Les résultats obtenus sur des tâches de classification/régression sont au moins compétitifs avec l'état de l'art, voire meilleurs, en particulier sur des jeux de données restreints, attestant des possibilités d'apprentissage par transfert sur ce domaine.