Complexité de la recherche de motifs dans un texte aléatoire

Tsinjo Tony Rakotoarimalala

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Tsinjo Tony Rakotoarimalala
Direction :	Frédérique Bassino
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/07/2019
Etablissement(s) :	Sorbonne Paris Cité
Ecole(s) doctorale(s) :	École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche :	Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
	Etablissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....)
Jury :	Président / Présidente : Mireille Régnier
	Examinateurs / Examinatrices : Julien Clément, Andrea Sportiello
	Rapporteurs / Rapporteuses : Thierry Lecroq, Cyril Nicaud

Mots clés

FR |

EN

Mots clés contrôlés

Bornes d'erreur

Motifs (mathématiques)

Intelligence artificielle

Complexité de calcul (informatique)

Mots clés libres

Complexité en moyenne

Borne inférieure

Résumé

FR |

EN

Soit Ʃ un alphabet à s ⩾2 symboles. Un motif ou dictionnaire est un ensemble de mots écrits sur l'alphabet Ʃ. Le problème de la recherche de motifs consiste à trouver toutes les occurrences des mots d'un dictionnaire donné dans un texte. Dans cette thèse, on s'intéresse plus précisément à établir la complexité de la recherche exacte ou approchée de motifs en termes de proportion de texte à lire dans un texte aléatoire de longueur n pour trouver toutes les occurrences exactes ou approchées des mots d'un dictionnaire arbitraire. Cette complexité est liée à la notion de contenu r = (rᵢ)I ≥1 d'un dictionnaire, i.e. le vecteur d'entiers dont le i-ème coefficient rᵢ est le nombre de mots de longueur i du dictionnaire. D'une part, on montre que la complexité de la recherche exacte pour un dictionnaire aléatoire de contenu r est en Ɵ (max sur m, In(ˢᵐrm) sur m + 1 sur 2ˢᵐmᵢn) où ᵐmᵢn est la longueur du mot le plus court du dictionnaire. Ce résultat est une généralisation de celui établi par Yao en 1979 dans le cas d'un dictionnaire réduit à un seul mot. D'autre part, on établit que la complexité de la recherche approchée pour un dictionnaire aléatoire de contenu r, et en autorisant au plus k erreurs d'édition (suppression, insertion, substitution) est en Ɵ (αsΦ(r)+ βs K+1 sur ᵐmᵢn) où Φ(r)=1 sur ks (max sur m In(ˢᵐr m) sur m + 1 sur 2ˢᵐmᵢn), et αs, βs, et ks dépendent uniquement de la taille s de l'alphabet.Que ce soit pour la recherche exacte ou la recherche approchée, l'approche est similaire. Pour établir les bornes supérieures, des algorithmes ayant la complexité cherchée pour n'importe quel dictionnaire de contenu r sont présentés et analysés. Les bornes inférieures sont établies par des arguments de comptage.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Complexité de la recherche de motifs dans un texte aléatoire

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Complexité de la recherche de motifs dans un texte aléatoire

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses