Transformers models for interpretable and multilevel prediction of protein functions from sequences
Auteur / Autrice : | Nicolas Buton |
Direction : | Olivier Dameron |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 18/10/2023 |
Etablissement(s) : | Université de Rennes (2023-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - Dyliss |
Jury : | Président / Présidente : Nataliya Sokolovska |
Examinateurs / Examinatrices : Tatiana Galochkina, Yann Le Cunff, François Coste | |
Rapporteurs / Rapporteuses : Nataliya Sokolovska, Blaise Hanczar |
Mots clés
Résumé
L'annotation automatique des séquences protéiques est en plein essor pour gérer l'augmentation des séquences non annotées expérimentalement. Premièrement nous avons étudié l'application du Transformer à la prédiction des fonctions enzymatiques. Le modèle EnzBert améliore le macro-f1 de 41% à 54% comparé au précédent état de l'art. De plus une comparaison des méthodes d'interprétabilité montre qu'une approche basée sur l'attention obtient un score F-Gain de 96,05%, surpassant les méthodes classiques (91,44%). Deuxièmement l'intégration de la Gene Ontology dans les modèles de prédiction de fonctions a été explorée. Deux approches ont été testées : l'intégration dans le processus de labellisation et l'utilisation de plongements hyperboliques. Les résultats obtenus confirment à la fois l'efficacité de la propagation des labels selon la hiérarchie GO et la supériorité des plongements hyperboliques (mean WFmax: 0.36) par rapport au modèle euclidien (0.34) en petite dimension (32). Ils maintiennent une plus grande cohérence avec la Gene Ontology (relations correctement ordonnées : 99.25%-99.28% vs. 78.48%-91.41% pour modèle euclidien).