Extraction de signatures complexes pour la découverte de nouveaux membres dans des familles de protéines connues

par Jérôme Mikolajczak

Thèse de doctorat en Médecine. Bioinformatique

Sous la direction de Yannick Jacques.


  • Résumé

    Cette thèse a permis d'obtenir des modèles de classification pour les familles structurales des interleukines à hélices a humaines au moyen d'un ensemble de signatures caractéristiques. Nous avons établi une approche génétique en trois étapes. Les signatures sont définies par des séquences de motifs hiérarchiques préalablement extraits et basés sur une classification hiérarchique des acides aminés en fonction de leurs propriétés physico-chimiques. Après optimisation, l'ensemble optimal des signatures cible spécifiquement notre ensemble d'interleukines. Une seconde approche repose sur l'utilisation originale d'un algorithme de découverte de motifs suivant le paradigme de la classification hiérarchique. L'ensemble des motifs définit un espace de représentation vectoriel basé sur la présence ou l'absence de chaque motif dans les séquences d'interleukines. Nous utilisons la technique des Systèmes à Vastes Marges pour discriminer nos familles. Notre modèle de classification des interleukines est plus performant que d'autres méthodes et ouvre la voie à des travaux d'extraction de nouvelles interleukines dans les bases de données génomiques.

  • Titre traduit

    Characterization of complex signatures for the discovery of new members in well-known protein families


  • Résumé

    This thesis allowed us to obtain classification models from the structural families of all a helices human interleukins by the way of a set of representative signatures. We established a genetic approach following a three steps process. A discovery algorithm of sequential itemsets searchs for sequence of hierarchical patterns previously extracted and based on an alphabet including the amino acid set and their own physicochemical properties. After a reduction step, the optimal set of signatures specifically targets our set of interleukins. The second part of our work consisted in an original discriminative approach which proposes an algorithm for discovering motifs based on the ascending hierarchical paradigm. The set of motifs defines a vectorial feature space that indicates the presence of the motifs in the interleukin sequences. We use the Support Vector Machines to discriminate our set. Our classification model. Performs better on our interleukins than other remote protein classification methods and opens 1 the way toward the extraction of new interleukins from the genomic public databases.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (290 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 219-233 f. [308 réf.]

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Santé.
  • Disponible pour le PEB
  • Cote : 05 NANT 33-VS
  • Bibliothèque : Bibliothèque interuniversitaire de santé (Paris). Pôle pharmacie, biologie et cosmétologie.
  • Non disponible pour le PEB
  • Cote : MFTH 7051
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.