Modélisation et détection automatique de sites de décalage de cadre en -1 dans les génomes eucaryotes

par Jean-Paul Forest

Thèse de doctorat en Informatique

Sous la direction de Christine Froidevaux.

Soutenue en 2005

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Cette these presente une etude bioinformatique de la modelisation du decalage de cadre en -1, un phenomene biologique qui se produit lors de la traduction des arn messagers en proteines. Il se produit sur des sous-sequences particulieres. Le modele consensuel de ces sites est compose de deux elements fondamentaux : une sequence glissante et une structure secondaire qui est generalement un pseudo-noeud. Nous cherchons d'abord a affiner les parametres du modele. Nous montrons l'importance cruciale de la sequence primaire d'une sous-sequence composant le modele nommee l'espaceur. Dans un second temps, nous construisons de nouveaux sites grace a une methode d'apprentissage automatique. Leur efficacite est ensuite testee in vivo par des collaborateurs biologistes. Nous obtenons ainsi 13 nouveaux sites de decalage mutants de sites averes. Dans une seconde partie, nous recherchons des sites de decalage dans des genomes eucaryotes complets. Nous mettons au point l'algorithme orpheo qui recherche la sequence glissante a l'aide d'un automate fini et la structure secondaire en repliant les sequences d'arn. Ces deux etapes permettent de detecter des sequences candidates dans les genomes. Ces candidats sont ensuite ordonnes par une methode d'apprentissage automatique. L'efficacite des meilleurs candidats a ete testee experimentalement. Nous obtenons ainsi 2 sites de decalage de cadre sur le genome de s. Cerevisiae.

  • Titre traduit

    Modelling and automatic detection of -1 frameshift sites in eucaryotic genomes


  • Résumé

    This work deals with the bioinformatics study of the modelling of -1 frameshift, a biological phenomenon that occurs during the translation of messenger rnas into proteins. It happens on specific subsequences. The consensus model consists in two main elements: a slippery sequence and a secondary structure. We first aim to make the features of the model more accurate. We show the important influence of the primary sequence of one component of the model called the spacer. We then construct new sites thanks to a machine learning method. Their efficiency is then measured in vivo by our collaborators. We thus yield 13 new frameshift sites that are mutants of known sites. In a second part, we look for frameshift sites in complete eukaryotic genomes. We design an algorithm called orpheo which searches for the slippery sequence with a finite-state automaton and for the secondary structure by folding arn sequences. These two steps yield candidates in whole genomes. These candidates are then ordered using machine learning. The efficiency of the best candidates is then experimentally measured. We found 2 new frameshift sites on the s. Cerevisiae genome.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (116 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 111-116

Où se trouve cette thèse ?