Exploration de méthodes statistiques pour la modélisation de la relation séquence-activité de protéines d'intérêt industriel

par Magali Berland

Thèse de doctorat en Biologie informatique

Sous la direction de Bernard Offmann et de Magali Remaud.


  • Résumé

    Par l'accumulation de mutations bénéfiques lors de cycles successifs de mutagénèse, l'évolution dirigée offre un cadre rationnel pour l'amélioration des protéines à vocation industrielle. Elle permet une exploration large de l'espace possible des séquences ainsi que leurs capacités fonctionnelles. Elle est cependant lourde à mettre en oeuvre et nécessite des moyens importants. Des approches in silico font usage d'un jeu minimal de données expérimentales et utilisent la modélisation statistique combinée à des algorithmes d'apprentissage machine. Elles ont été développées pour explorer de façon heuristique l'espace possible des séquences et de la fitness et d'identifier les mutations et interactions entre résidus les plus intéressantes. C'est l'objet de cette thèse qui explore la construction et l'application de modèles statistiques s'appuyant sur des jeux minimaux de données expérimentales pour relier fitness, ou activité, à la séquence biologique des variants. L'étude s'articule autour d'un choix crucial d'une méthode de numérisation, de descripteurs de la séquence et de méthodes de régression. La méthode ProSAR de R. Fox (2005) et les limites de son applicabilité sur des jeux de données expérimentales ont été étudiées. De nouvelles méthodes ont aussi été développées, prenant en compte les propriétés physico-chimiques des acides aminés et leurs périodicités. Elle a permis de découvrir de nouveaux descripteurs reliant la séquence à l'activité et propose des approches innovantes qui ont la capacité de traiter des cadres biologiques très divers, même lorsque peu de données biologiques sont disponibles.

  • Titre traduit

    Exploration of statistical methods for the modeling of sequence to activity relationship of proteins of industrial interest.


  • Résumé

    Via the accumulation of beneficial mutations through successive rounds of mutations, directed evolution offers a rational framework for the amelioration of protein of industrial interest. It enables the large exploration of the sequence space and fitness. However, they are wet-lab intensive and may reveal to be time consuming and costly. In silico approaches using minimal sets of experimental data and statistical models combined with machine learning algorithms have been developed to explore heuristically the sequence space and to identify the effect of the potential epistatic interactions between residues on protein fitness. This work focused on the construction and application of statistical models relying on minimal experimental datasets to study protein sequence to activity relationships (ProSAR). In particular, the choices of appropriate numerical encoding methods, of descriptors extracted from protein sequences and of regression methods were investigated. The original ProSAR method from R. Fox (2005) and the limits of its applicability on experimental datasets have been studied. New methods that consider physico-chemical features of amino acids and their periodicities have been explored. This study unveils novel descriptors of the sequence-activity relationship and provides innovative approaches that can deal with very diverse biological datasets, even when few biological data are available.



Le texte intégral de cette thèse n'est pas accessible en ligne.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de La Réunion. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.