Développement et application de méthodes bioinformatiques pour l'analyse des protéines contenant des répétitions en tandem
Auteur / Autrice : | François D. Richard |
Direction : | Andrey Kajava |
Type : | Thèse de doctorat |
Discipline(s) : | Biologie Santé |
Date : | Soutenance le 21/10/2016 |
Etablissement(s) : | Montpellier |
Ecole(s) doctorale(s) : | École doctorale Sciences Chimiques et Biologiques pour la Santé (Montpellier ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Biologie cellulaire de Montpellier (Montpellier) |
Jury : | Président / Présidente : Thérèse Commes-Maerten |
Examinateurs / Examinatrices : Andrey Kajava, Thérèse Commes-Maerten, Christine A. Orengo, Philippe Minard | |
Rapporteurs / Rapporteuses : Christine A. Orengo, Philippe Minard |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
De nos jours, l’augmentation du volume des données de séquençage est bien plus forte que celle de notre capacité à analyser ces données. En lien avec ce déluge de données et le besoin urgent de nouveaux outils bioinformatiques pour les analyser, notre travail consiste à développer de nouveaux algorithmes pour mieux comprendre les relations entre séquence, structure, et fonction des protéines. Les protéines contiennent de larges portions de séquences périodiques, qui forment des motifs d’acides aminés répétés les uns à la suite des autres que l’on appelle des répétitions en tandem. Elles se retrouvent dans 14% des protéines. De nombreuses études ont montré leur importance fonctionnelle ainsi que leur implication dans de nombreuses maladies humaines, notamment le cancer. Ici, nous montrons l’importance d’adopter une approche incluant plusieurs outils de détection de répétition en tandem afin de s’assurer d’obtenir le jeu de données le plus complet. Nous avons ainsi réalisé un pipeline approprié, et développé deux outils spécifiques : un filtre, pour gagner en rapidité, et un score, pour sélectionner les répétitions les plus pertinentes dans les régions structurées des protéines. Enfin, nous avons utilisé ce pipeline sur une sélection de 94 protéomes. Cette analyse a permis de mettre à jour le précédent recensement des répétitions, montrant que 64% des protéines contenaient des répétitions en tandem. Elle a également permis de mieux comprendre les répétions en tandem dans leurs caractéristiques, leurs compositions et leurs implications dans les maladies humaines.