Thèse soutenue

Transformers models for interpretable and multilevel prediction of protein functions from sequences

FR  |  
EN
Auteur / Autrice : Nicolas Buton
Direction : Olivier Dameron
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/10/2023
Etablissement(s) : Université de Rennes (2023-....)
Ecole(s) doctorale(s) : École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....)
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - Dyliss
Jury : Président / Présidente : Nataliya Sokolovska‎
Examinateurs / Examinatrices : Tatiana Galochkina, Yann Le Cunff, François Coste
Rapporteurs / Rapporteuses : Nataliya Sokolovska‎, Blaise Hanczar

Résumé

FR  |  
EN

L'annotation automatique des séquences protéiques est en plein essor pour gérer l'augmentation des séquences non annotées expérimentalement. Premièrement nous avons étudié l'application du Transformer à la prédiction des fonctions enzymatiques. Le modèle EnzBert améliore le macro-f1 de 41% à 54% comparé au précédent état de l'art. De plus une comparaison des méthodes d'interprétabilité montre qu'une approche basée sur l'attention obtient un score F-Gain de 96,05%, surpassant les méthodes classiques (91,44%). Deuxièmement l'intégration de la Gene Ontology dans les modèles de prédiction de fonctions a été explorée. Deux approches ont été testées : l'intégration dans le processus de labellisation et l'utilisation de plongements hyperboliques. Les résultats obtenus confirment à la fois l'efficacité de la propagation des labels selon la hiérarchie GO et la supériorité des plongements hyperboliques (mean WFmax: 0.36) par rapport au modèle euclidien (0.34) en petite dimension (32). Ils maintiennent une plus grande cohérence avec la Gene Ontology (relations correctement ordonnées : 99.25%-99.28% vs. 78.48%-91.41% pour modèle euclidien).