Algorithmes de graphes pour l'analyse des séquences et structures génomiques

par Romain Rivière

Thèse de doctorat en Informatique

Sous la direction de Alain Denise.


  • Résumé

    Mon travail de thèse porte sur le développement de méthodes pour l'étude des motifs de structures biologiques. La première partie de ce travail concerne l'étude des motifs d'ADN. L'ADN est modélisé par un mot sur l'alphabet A, C, G, T. Nous nous plaçons dans le cadre du modèle de séquence mélangée (modèle dit du "shuffling") dans lequel les nombres d'occurrences des facteurs de taille k sont fixés. Je propose un algorithme de génération aléatoire uniforme de séquences mélangées dans lesquelles apparaissent un certain nombre d'occurrences de motifs choisi à priori. D'un point de vue algorithmique, cela fait intervenir différente problèmes dont je montre qu'ils sont NP-complets. D'un point de vue biologique, ces séquences permettent d'estimer les Z-scores de motifs sachant que d'autres sont présents, ce qui est particulièrement important lors de la recherche de motifs correspondant à des signaux secondaires. Je propose le logiciel SMACK qui est capable de générer des séquences mélangées sous contraintes de motifs et d'estimer les Z-scores de tous les motifs d'une taille donnée dans ces modèles. La deuxième partie concerne l'étude des motifs d'ARN. L'ARN est modélisé par un graphe mixte, de degré borné, contenant un chemin hamiltonien connu. Je propose de modéliser un motif d'ARN par un sous-graphe induit connexe. Dans un premier temps, je développe un algorithme efficace d'énumération des motifs d'une molécule d'ARN. Puis, je propose plusieurs modèles de coloration des graphes représentant l'ARN, afin d'obtenir des représentations plus ou moins fines de celui-ci. Pour chacun des ces modèles, on introduit un étiquetage canonique des motifs d'ARN, ce qui nous permet de compter les occurrences des motife simplement par comparaisons de séquences. L'étape suivante est de comparer ces occurrences avec celles obtenues dans des modèles d'ARN aléatoire. Je traite du cas d'un modèle de graphe hamiltonien et du cas d'un modèle de structure secondaire utilisant le logiciel GenRGenS. Cette méthodologie est appliquée sur un ARN 23S, constituant de la grande sous-unité du ribosome de l'Haloarcula marismortui, ce qui permet d'en présenter des motifs que l'on pense pertinents.

  • Titre traduit

    Graphs algorithms for the analysis of genomic sequences and structures


  • Résumé

    This thesis aims to develop methods for the study of motifs in biological structures. In the first part of this work, I deal with DNA motifs. DNA can be represented by a word on the alphabet A, C, G, T. We stand in the shuffling model, in which the number of occurrences of the factors of size k are fixed. I develop an algorithm for uniform random generation of shuffled sequences, where some motifs are chosen to appear a priori. In an algorithmic point of view, this problem consists of several subproblems which I show to be NP-complete. In a biological point of view, those random sequences allow to estimate Z-scores for motifs when one knows that others are present. This is very important when dealing with the search for motifs corresponding to secondary signals. I develop the SMACK software, which allows to generate sequences uniformly at random in the constraint shuffling model and to estimate Z-scores of all the motifs of a given length. The second part of my work is about motifs in RNA. The RNA molecule is represented by a mixed graph, with bounded degree and a known hamiltonian path. I define a RNA motif to be a connected induced subgraph and I develop an efficient algorithm to enumerate them. Then, I consider several coloration models for RNA graphs in order to obtain more or less precision with the model. For all of these models, I present canonical labels for the RNA motifs. It allows to count occurences of the motifs simply by comparing words. The next step is to compare those occurences with those obtained with models of random RNA. In particular, I deal with the case of an hamiltonian graph model and with the case of a secondary structure model based on the use of the GenRGenS software. This methodology is applied to an 23S RNA which is a part of the large ribosomal subunit of Haloarcula marismortui. This allows us to present motifs that could be meaningful.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (119 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 107-112. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2005)157
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.