Grandes deviations et chaines de markov pour l'etude des occurrences de mots dans les sequences biologiques

par GREGORY NUEL

Thèse de doctorat en Mathématiques

Sous la direction de Bernard Prum.

Soutenue en 2001

à Evry-Val d'Essonne .


  • Résumé

    On peut assimiler l'information contenue dans l'adn d'un organisme a une longue sequence ecrite dans un alphabet a quatre lettres : a, c, g et t. Certains mots ou motifs que l'on trouve dans ces sequences interviennent directement dans des mecanismes biologiques. Du fait de la pression de la selection, il est naturel de relier le caractere exceptionnels de ces mots a leurs frequences d'apparition. On utilise l'outil statistique des grandes deviations pour mesurer la significativite du comptage d'un mot ou d'un motif dans un texte suppose aleatoire et genere selon une chaine de markov d'un ordre donne. Grace a des algorithmes numeriques performants (brent, arnoldi, descente du gradient), les resultats theoriques de grandes deviations de niveaux 1 et 2 sont utilises par le programme gdon pour effectuer les calculs pour motif de taille h en o(k h) en temps et en espace. La comparaison des resultats de gdon avec ceux d'autres methodes asymptotiques (approximations gaussiennes et poissoniennes) ou exactes montre la grande qualite des approximations obtenues en ce qui concerne les evenements rares. De plus, divers exemples biologiques concrets sont etudies par le biais de ce programme et les resultats obtenus sont coherents avec les connaissances biologiques des mecanismes qui leurs sont lies. La demarche inverse, c'est a dire la creation d'information a partir des resultats statistiques seuls n'est cependant pas si simple. Un methode de retraitement automatique des resultats par le biais d'alignement est dans ce but envisagee et se fixe pour objectif de distinguer les mots veritablement significatifs du point de vue biologique de ceux dont la nature exceptionnelle est due a l'evolution.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 256 p.
  • Annexes : 54 ref. INDEX

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Evry-Val d'Essonne. Service commun de la documentation. Bibliothèque centrale.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 519.233 NUE gra
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.