Thèse soutenue

Exploration de méthodes statistiques pour la modélisation de la relation séquence-activité de protéines d'intérêt industriel

FR  |  
EN
Auteur / Autrice : Magali Berland
Direction : Bernard OffmannMagali Remaud
Type : Thèse de doctorat
Discipline(s) : Biologie informatique
Date : Soutenance le 29/10/2013
Etablissement(s) : La Réunion
Ecole(s) doctorale(s) : École doctorale Sciences, Technologies et Santé (Saint-Denis, La Réunion)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire d'ingénierie des systèmes biologiques et des procédés (Toulouse)
Laboratoire : Unité de Fonctionnalité et Ingénierie des Protéines (Nantes) - Dynamique des structures et interactions des macromolécules biologiques (Saint-Denis, Réunion)
Jury : Président / Présidente : Frédéric Cadet
Examinateurs / Examinatrices : Bernard Offmann, Magali Remaud, Frédéric Cadet, Marie Chabbert, Srinivasan Narayanaswamy, Isabelle André, Christine Sinoquet, Philippe Charton
Rapporteurs / Rapporteuses : Marie Chabbert, Srinivasan Narayanaswamy

Résumé

FR  |  
EN

Par l'accumulation de mutations bénéfiques lors de cycles successifs de mutagénèse, l'évolution dirigée offre un cadre rationnel pour l'amélioration des protéines à vocation industrielle. Elle permet une exploration large de l'espace possible des séquences ainsi que leurs capacités fonctionnelles. Elle est cependant lourde à mettre en oeuvre et nécessite des moyens importants. Des approches in silico font usage d'un jeu minimal de données expérimentales et utilisent la modélisation statistique combinée à des algorithmes d'apprentissage machine. Elles ont été développées pour explorer de façon heuristique l'espace possible des séquences et de la fitness et d'identifier les mutations et interactions entre résidus les plus intéressantes. C'est l'objet de cette thèse qui explore la construction et l'application de modèles statistiques s'appuyant sur des jeux minimaux de données expérimentales pour relier fitness, ou activité, à la séquence biologique des variants. L'étude s'articule autour d'un choix crucial d'une méthode de numérisation, de descripteurs de la séquence et de méthodes de régression. La méthode ProSAR de R. Fox (2005) et les limites de son applicabilité sur des jeux de données expérimentales ont été étudiées. De nouvelles méthodes ont aussi été développées, prenant en compte les propriétés physico-chimiques des acides aminés et leurs périodicités. Elle a permis de découvrir de nouveaux descripteurs reliant la séquence à l'activité et propose des approches innovantes qui ont la capacité de traiter des cadres biologiques très divers, même lorsque peu de données biologiques sont disponibles.