Complexité de la recherche de motifs dans un texte aléatoire
Auteur / Autrice : | Tsinjo Tony Rakotoarimalala |
Direction : | Frédérique Bassino |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 08/07/2019 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....) |
Etablissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....) | |
Jury : | Président / Présidente : Mireille Régnier |
Examinateurs / Examinatrices : Julien Clément, Andrea Sportiello | |
Rapporteurs / Rapporteuses : Thierry Lecroq, Cyril Nicaud |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Soit Ʃ un alphabet à s ⩾2 symboles. Un motif ou dictionnaire est un ensemble de mots écrits sur l'alphabet Ʃ. Le problème de la recherche de motifs consiste à trouver toutes les occurrences des mots d'un dictionnaire donné dans un texte. Dans cette thèse, on s'intéresse plus précisément à établir la complexité de la recherche exacte ou approchée de motifs en termes de proportion de texte à lire dans un texte aléatoire de longueur n pour trouver toutes les occurrences exactes ou approchées des mots d'un dictionnaire arbitraire. Cette complexité est liée à la notion de contenu r = (rᵢ)I ≥1 d'un dictionnaire, i.e. le vecteur d'entiers dont le i-ème coefficient rᵢ est le nombre de mots de longueur i du dictionnaire. D'une part, on montre que la complexité de la recherche exacte pour un dictionnaire aléatoire de contenu r est en Ɵ (max sur m, In(ˢᵐrm) sur m + 1 sur 2ˢᵐmᵢn) où ᵐmᵢn est la longueur du mot le plus court du dictionnaire. Ce résultat est une généralisation de celui établi par Yao en 1979 dans le cas d'un dictionnaire réduit à un seul mot. D'autre part, on établit que la complexité de la recherche approchée pour un dictionnaire aléatoire de contenu r, et en autorisant au plus k erreurs d'édition (suppression, insertion, substitution) est en Ɵ (αsΦ(r)+ βs K+1 sur ᵐmᵢn) où Φ(r)=1 sur ks (max sur m In(ˢᵐr m) sur m + 1 sur 2ˢᵐmᵢn), et αs, βs, et ks dépendent uniquement de la taille s de l'alphabet.Que ce soit pour la recherche exacte ou la recherche approchée, l'approche est similaire. Pour établir les bornes supérieures, des algorithmes ayant la complexité cherchée pour n'importe quel dictionnaire de contenu r sont présentés et analysés. Les bornes inférieures sont établies par des arguments de comptage.