Apprentissage d'automates modélisant des familles de séquences protéiques

par Goulven Kerbellec

Thèse de doctorat en Informatique. Bioinformatique

Sous la direction de Rumen Andonov.

Soutenue en 2008

à Rennes 1 .


  • Résumé

    Cette thèse propose une nouvelle approche de découverte de signatures de familles de protéines. Etant donné un échantillon (non-aligné) de séquences appartenant à une famille structurelle ou fonctionnelle de protéines, cette approche infère des automates finis non-déterministes (NFA) caractérisant la famille. Un nouveau type d'alignement multiple nommé PLMA est introduit afin de mettre en valeur les similarités partielles et locales significativement similaires. A partir de ces informations, les modèles de type NFA sont produits par un procédé relevant du domaine de l'inférence grammaticale. Les modèles NFA, présentés ici sous le nom de Protomates, sont des modèles graphiques discrets de forte expressivité, ce qui les distingue des modèles statistiques de type profils HMM ou des motifs de type Prosite. Les expériences menées sur différentes familles biologiques dont les MIP et les TNF, montrent un succès sur des données réelles.

  • Titre traduit

    Learning automata modelling families of protein sequences


  • Résumé

    This thesis shows a new approach out of discovering protein families signatures. Given a sample of (unaligned) sequences belonging to a structural or functional family of proteins, this approach infers non-deterministic automata characterizing the family. A new kind of multiple alignment called PLMA is introduced in order to emphasize the partial and local significant similarities. Given this information, the NFA models are produced by a process stemming from the domain of grammatical inference. The NFA models, presented here under the name of Protomata, are discreet graphical models of strong expressiveness, which distinguishes them from statistical models such as HMM profiles or pattern models like Prosite patterns. The experiments led on various biological families,  among which the MIP and the TNF, show a success on real data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (134 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 125-129

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2008/52
  • Bibliothèque : Centre de recherche INRIA Rennes - Bretagne Atlantique. Service IST.
  • Disponible pour le PEB
  • Cote : J.3 - KER
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.