Extraction de motifs communs dans un ensemble de séquences : application à l'identification de sites de liaison aux protéines dans les séquences primaires d'ADN

par Alban Mancheron

Thèse de doctorat en Informatique

Sous la direction de Irena Rusu.

Soutenue en 2006

à Nantes .


  • Résumé

    L’extraction de motifs ayant une signification biologique, et notamment l’identification de sites de régulation de la synthèse protéique dans les séquences primaires d’ADN, est un des enjeux de la recherche en bioinformatique. Une anomalie dans cette régulation peut avoir de graves conséquences sur la santé d’un organisme. Aussi, l’extraction de ces sites permet de mieux comprendre le fonctionnement cellulaire et de soigner certaines pathologies. Les difficultés posées par ce problème sont le manque d’informations sur les motifs à extraire, ainsi que le volume important des données à traiter. Deux algorithmes polynomiaux – l’un déterministe et l’autre probabiliste – permettant de le traiter ont été conçus. Dans ce contexte, nous avons introduit une nouvelle famille de fonctions de score et étudié leurs propriétés statistiques. Nous avons également caractérisé le langage reconnu par la structure d’index appelée Oracle, et proposé une amélioration la rendant plus efficace.

  • Titre traduit

    Pattern extraction from a set of sequences. An application to proteins binding sites identification in DNA primary sequences


  • Résumé

    The extraction of significant biological patterns, and in particular the identification of regulation sites of proteinic synthesis in DNA primary sequences, is one of the major issues today in bioinformatics. Indeed any anomaly in proteinic synthesis regulation has detrimental damages on the well-being of certain organisms. Extracting these sites enables to better understand cellular operation or even to remove or cure pathology. What is promblematic is the lack of information on patterns to be extracted, as well as the large volume of data to mine. In ths dissertation, we introduce two polynomial algorithms – the first one is deterministic and the other one is probabilist – to address the issue of pattern extraction. We introduce a new family of score functions and we study theirs statistical properties. We characterize the language which is recognized by the index structure named “Oracle”, and we modifiy this structure in order to make it more efficient.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (274 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie f. 233-247. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 2006 NANT 2060
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.