Thèse soutenue

Structures d'indexation compressées et dynamiques pour le texte

FR
Auteur / Autrice : Mikaël Salson
Direction : Thierry Lecroq
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2010
Etablissement(s) : Rouen

Résumé

FR

Les structures d’indexation compressées (SIC) permettent une recherche très rapide dans de grands textes en utilisant un espace inférieur à ceux-ci. L’apparition des SIC en 2000 a autorisé l’indexation de génomes entiers de mammifères. Nous introduisons une méthode qui met à jour une SIC afin de prendre en compte les modifications du texte indexé. À travers des résultats théoriques et pratiques, nous montrons que notre solution est beaucoup plus rapide que la reconstruction complète de la SIC. Nous proposons aussi une méthode pour la recherche de minimum d’une séquence numérique pour un intervalle donné. Celle-ci est plus économe en espace que les autres méthodes et autorise la mise à jour de la séquence. Enfin, pour rechercher des millions de courtes séquences au sein d’un génome, nous proposons une méthode qui augmente significativement le pourcentage de séquences localisées et permet d’identifier les mutations génétiques, par exemple.