Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN

par Christophe Vroland

Thèse de doctorat en Informatique

Sous la direction de Hélène Touzet, Vincent Castric et de Mikaël Salson.


  • Résumé

    La recherche de motifs approchée consiste à identifier les occurrences d’un motif modulo une certaine distance au sein d’un texte. Ce problème trouve de nombreuses applications en bio-informatique pour l’analyse de séquences biologiques. Par exemple, les microARN sont des petits ARN qui régulent l’expression des gènes par reconnaissance d’un motif similaire. Comprendre le mode d’action des microARN demande de pouvoir localiser de courts motifs, environ 21 nucléotides, comprenant jusqu’à 3 ou 4 erreurs dans un texte de l’ordre de 108 à 109 nucléotides, représentant un génome. Dans cette thèse, nous proposons un algorithme efficace pour la recherche de motifs approchée, qui se base sur la définition d’un nouveau type de graines avec erreurs, les graines 01*0, et qui exploite une structure d’index compressée, le FM-index. Cet algorithme a été mis en œuvre dans un logiciel librement disponible, appelé Bwolo. Nous démontrons expérimentalement l’avantage de cette approche en nous comparant à l’état de l’art des outils existants. Nous montrons également comment utiliser Bwolo pour mettre en place une analyse originale sur l’étude de la distribution des cibles potentielles de miARN dans deux génomes de plantes, Arabidopsis thaliana et Arabidopsis lyrata.

  • Titre traduit

    Algorithmic for approximate string matching and application for the search of microRNA targets


  • Résumé

    Approximate string matching consists in identifying the occurrences of a motif within a text, modulo a given distance. This problem has many applications in bioinformatics for the analysis of biological sequences. For instance, microRNAs are short RNA molecules regulating the expression of genes by specific recognition of their sequence motif on the target gene. Understanding the mode of action of microRNAs requires the ability to identify short motifs, around 21 nucleotides in size, comprising up to 3-4 errors in a text whose size is in the order of 108-109 , representing a genome. In this thesis, I have proposed an efficient algorithm for the approximate search of short motifs. This algorithm is based on a new type of seeds containing errors, the 01*0 seeds, and uses a compressed index structure, the FM-index. I have implemented this algorithm in a freely available software, Bwolo. I demonstrate experimentally the advantage of this approach and compare it to the state of the art of existing tools. I also show how Bwolo can be used and have set up an original study on the distribution of potential miRNA target sites in two plant genomes, Arabidopsis thaliana and Arabidopsis lyrata.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.