Transformers models for interpretable and multilevel prediction of protein functions from sequences

Nicolas Buton

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Nicolas Buton
Direction :	Olivier Dameron
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/10/2023
Etablissement(s) :	Université de Rennes (2023-....)
Ecole(s) doctorale(s) :	École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....)
Partenaire(s) de recherche :	Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - Dyliss
Jury :	Président / Présidente : Nataliya Sokolovska‎
	Examinateurs / Examinatrices : Tatiana Galochkina, Yann Le Cunff, François Coste
	Rapporteurs / Rapporteuses : Nataliya Sokolovska‎, Blaise Hanczar

Mots clés

FR |

EN

Mots clés contrôlés

Ontologies (informatique)

Bioinformatique

Apprentissage profond

Mots clés libres

Annotation fonctionnelle automatique

Apprentissage profond

Transformer

Enzymes

Gene Ontology

Résumé

FR |

EN

L'annotation automatique des séquences protéiques est en plein essor pour gérer l'augmentation des séquences non annotées expérimentalement. Premièrement nous avons étudié l'application du Transformer à la prédiction des fonctions enzymatiques. Le modèle EnzBert améliore le macro-f1 de 41% à 54% comparé au précédent état de l'art. De plus une comparaison des méthodes d'interprétabilité montre qu'une approche basée sur l'attention obtient un score F-Gain de 96,05%, surpassant les méthodes classiques (91,44%). Deuxièmement l'intégration de la Gene Ontology dans les modèles de prédiction de fonctions a été explorée. Deux approches ont été testées : l'intégration dans le processus de labellisation et l'utilisation de plongements hyperboliques. Les résultats obtenus confirment à la fois l'efficacité de la propagation des labels selon la hiérarchie GO et la supériorité des plongements hyperboliques (mean WFmax: 0.36) par rapport au modèle euclidien (0.34) en petite dimension (32). Ils maintiennent une plus grande cohérence avec la Gene Ontology (relations correctement ordonnées : 99.25%-99.28% vs. 78.48%-91.41% pour modèle euclidien).

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Transformers models for interpretable and multilevel prediction of protein functions from sequences

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Transformers models for interpretable and multilevel prediction of protein functions from sequences

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses