Thèse soutenue

Complexité de la recherche de motifs dans un texte aléatoire

FR  |  
EN
Auteur / Autrice : Tsinjo Tony Rakotoarimalala
Direction : Frédérique Bassino
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/07/2019
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Etablissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....)
Jury : Président / Présidente : Mireille Régnier
Examinateurs / Examinatrices : Julien Clément, Andrea Sportiello
Rapporteurs / Rapporteuses : Thierry Lecroq, Cyril Nicaud

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Soit Ʃ un alphabet à s ⩾2 symboles. Un motif ou dictionnaire est un ensemble de mots écrits sur l'alphabet Ʃ. Le problème de la recherche de motifs consiste à trouver toutes les occurrences des mots d'un dictionnaire donné dans un texte. Dans cette thèse, on s'intéresse plus précisément à établir la complexité de la recherche exacte ou approchée de motifs en termes de proportion de texte à lire dans un texte aléatoire de longueur n pour trouver toutes les occurrences exactes ou approchées des mots d'un dictionnaire arbitraire. Cette complexité est liée à la notion de contenu r = (rᵢ)I ≥1 d'un dictionnaire, i.e. le vecteur d'entiers dont le i-ème coefficient rᵢ est le nombre de mots de longueur i du dictionnaire. D'une part, on montre que la complexité de la recherche exacte pour un dictionnaire aléatoire de contenu r est en Ɵ (max sur m, In(ˢᵐrm) sur m + 1 sur 2ˢᵐmᵢn) où ᵐmᵢn est la longueur du mot le plus court du dictionnaire. Ce résultat est une généralisation de celui établi par Yao en 1979 dans le cas d'un dictionnaire réduit à un seul mot. D'autre part, on établit que la complexité de la recherche approchée pour un dictionnaire aléatoire de contenu r, et en autorisant au plus k erreurs d'édition (suppression, insertion, substitution) est en Ɵ (αsΦ(r)+ βs K+1 sur ᵐmᵢn) où Φ(r)=1 sur ks (max sur m In(ˢᵐr m) sur m + 1 sur 2ˢᵐmᵢn), et αs, βs, et ks dépendent uniquement de la taille s de l'alphabet.Que ce soit pour la recherche exacte ou la recherche approchée, l'approche est similaire. Pour établir les bornes supérieures, des algorithmes ayant la complexité cherchée pour n'importe quel dictionnaire de contenu r sont présentés et analysés. Les bornes inférieures sont établies par des arguments de comptage.