Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples

par Pierre Peterlongo

Thèse de doctorat en Informatique

Sous la direction de Maxime Crochemore et de Marie-France Sagot.

Soutenue en 2006

à l'Université de Marne-la-Vallée .


  • Résumé

    La génomique moléculaire fait face en ce début de siècle à de nouvelles situations qu'elle doit prendre en compte. D'une part, depuis une dizaine d'années, la quantité de données disponibles croît de manière exponentielle. D'autre part, la recherche dans le domaine implique de nouvelles questions dont les formulations in silico génèrent des problèmes algorithmiquement difficiles à résoudre. Parmi ces problèmes, certains concernent notamment l'étude de réarrangements génomiques dont les duplications et les éléments transposables. Ils imposent que l'on soit en mesure de détecter précisément et efficacement de longues répétitions approchées et multiples dans les génomes. Par répétition multiple, nous désignons des répétitions ayant au moins deux copies dans une séquence d'ADN, ou ayant des copies dans au moins deux séquences d'ADN distinctes. De plus, ces répétitions sont approchées dans le sens où des erreurs existent entre les copies d'une même répétition. La recherche de répétitions approchées multiples peut être résolue par des algorithmes d'alignements multiples locaux mais ceux-ci présentent une complexité exponentielle en la taille de l'entrée, et ne sont donc pas applicables à des données aussi grandes que des génomes. C'est pourquoi, de nouvelles techniques doivent être créées pour répondre à ces nouveaux besoins. Dans cette thèse, une approche de filtrage des séquences d'ADN est proposée. Le but d'une telle approche est de supprimer rapidement et efficacement, parmi des textes représentant des séquences d'ADN, de larges portions ne pouvant pas faire partie de répétitions. Les données filtrées, limitées en majorité aux portions pertinentes, peuvent alors être fournies en entrée d'un algorithme d'alignement multiple local. Les filtres proposés appliquent une condition nécessaire aux séquences pour n'en conserver que les portions qui la respectent. Les travaux que nous présentons ont porté sur la création de conditions de filtrage, à la fois efficaces et simples à appliquer d'un point de vue algorithmique. À partir de ces conditions de filtrage, deux filtres, Nimbus et Ed'Nimbus, ont été créés. Ces filtres sont appelés exacts car il ne suppriment jamais de données contenant effectivement des occurrences de répétitions respectant les caractéristiques fixées par un utilisateur. L'efficacité du point de vue de la simplicité d'application et de celui de la précision du filtrage obtenu, conduit à de très bons résultats en pratique. Par exemple, le temps utilisé par des algorithmiques de recherche de répétitions ou d'alignements multiples peut être réduit de plusieurs ordres de grandeur en utilisant les filtres proposés. Il est important de noter que les travaux présentés dans cette thèse sont inspirés par une problématique biologique mais ils sont également généraux et peuvent donc être appliqués au filtrage de tout type de textes afin d'y détecter de grandes portions répétées

  • Titre traduit

    DNA sequence filtration for finding long multiple approximate repetitions


  • Résumé

    Since a few years, molecular genomics has had to deal with new situations. First, the amount of data available is increasing exponentially. Second, research in this domain involves some new questions which lead to problems that are algorithmically difficult to solve. Among such problems, some are related to the study of genomic rearrangements, including duplicated and transposable elements. Such a task requires the capacity to detect accurately and efficiently long multiple approximate repetitions in the genomes. A multiple repetition refers to a repetition having at least two copies in a DNA sequence, or having copies in a least two distinct DNA sequences. Furthermore, the repetitions involved are called approximate because their occurrences are distant from another by some errors like insertions, deletions and substitutions. The problem of searching for long multiple approximate repetitions may be solved by multiple local alignment algorithms. Such algorithms have a complexity that is exponential with the size of the input. Therefore they cannot be applied to data as big as genomes. This is the reason why new techniques have to be created to address these new problems. In this PhD thesis, a filtration approach for comparing DNA sequences is proposed. The goal of this approach is to remove accurately and efficiently, from texts representing DNA, large portions that cannot contain an occurrence of a repetition. Filtered data, which in general will then correspond to the relevant portions, may be used as input of a multiple local alignment algorithm. The filters proposed apply a necessary condition on the sequences. Only portions of sequences respecting this condition are conserved. The work presented deals with the creation of filtration conditions. Such conditions have to be both efficient and, from an algorithmic point of view, easy to apply. Using the provided filtration conditions, two filters, Nimbus and Ed'Nimbus were created. These filters are called exact because the condition applied guarantees that no relevant part of the data may be filtered out. Its efficiency, both in terms of the accuracy of the filtration and of the time consumption, leads to very good practical results. For instance, the time spent by repetition extraction algorithms or multiple alignment algorithms may be reduced by several orders of magnitude using one of the proposed filters. It is worth to notice that the work presented in this PhD thesis was motivated by biology, however, it is generic and can thus be used to filter of any other kinds of text with the aim to detect long multiple repeated portions

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (243 col.)
  • Annexes : Bibliogr. col. 221-233. Glossaire. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2006 PET 0287
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.