Thèse soutenue

Algorithmes de recherche de motifs dans les séquences d'ADN

FR  |  
EN
Auteur / Autrice : Renaud Vérin
Direction : Maxime Crochemore
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1998
Etablissement(s) : Université de Marne-la-Vallée (1991-2019)

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Cette these, situee dans le cadre de la bio-informatique, presente des methodes permettant de detecter des regions dans les sequences d'adn ayant une faible entropie. On appelle ces regions des zones de dosdna. On definit ici l'entropie comme le nombre de facteurs distincts presents dans une region. Elle est mesuree en temps lineaire. Pour cela, les sequences d'adn sont vues comme des textes sur l'alphabet des nucleotides [somme de l'ensemble] = a,c,g,t et on cree un index de tous les facteurs presents dans le texte. D'un point de vue informatique, les arbres et les automates de suffixes sont les structures de donnees les mieux adaptees pour generer ces index. Ils ont une taille lineaire par rapport a la taille du texte et le temps d'acces a un facteur w du texte est de o (longueur (w)). On s'interesse ici aux automates compacts de suffixes (acs). Le gain d'espace memoire du a la compression permet de construire, en moyenne, des index de sequences deux fois plus grandes qu'avec des automates de suffixes, tout en les gardant en memoire vive. Nous avons developpe le premier algorithme lineaire de construction directe des acs. D'un point de vue biologique, grace a ces structures de donnees, nous avons adapte des methodes existantes, la creation de paysages de sequences et l'analyse statistique des valeurs de x#2 de portions de sequences, afin qu'ils puissent traiter efficacement les longues sequences. Nous avons developpe une nouvelle methode, base sur la mesure d'entropie de portions de sequences. Cette methode permet de detecter des zones contenant de longues repetitions ou un grand nombre de petites repetitions. Nous avons compare les regions remarquables en utilisant un indice de proximite, base sur l'indice de jaccard. Cette methode met en evidence des regions ayant des similarites qui n'auraient pas ete trouvees avec des methodes standards d'alignement. On applique cette methode sur des chromosomes de la levure saccharomyces cerevisiae