Extraction de mots approchés

par Johann Pelfrêne

Thèse de doctorat en Informatique. Bioinformatique

Sous la direction de Jean-Pierre Duval.

Soutenue en 2004

à Rouen .


  • Résumé

    La réprésentation des facteurs d'un texte s'effectue de différentes manières (arbre, table, automate des suffixes), cependant il n'est pas connu de structure d'index pour des mots contenant des erreurs. Nous proposons l'étude de mots approchés au sens du joker, dont un résultat récent montrait que le nombre de mots à jokers maximaux non redondants était linéaire en la taille du texte duquel ces mots sont extraits. Nous introduisons ainsi les mots primitifs, permettant de diminuer le nombre de mots à jokers d'intérêts. Comme les maximaux non redondants, les primitifs forment une base permettant de déduire les autres mots maximaux. Nous montrons cependant que le nombre de primitifs et conséquemment le nombre de maximaux non redondants n'est pas linéaire, mais exponentiel. Nous présentons des propriétés de ces mots, un algorithme d'extraction des mots primitifs, et un algorithme de décision de la primitivité étant donné un mot et un texte. Ces algorithmes sont étendus à l'extraction dans plusieurs textes, à la miseà jour après ajout d'un nouveau texte, et aux caractères ambigus. Nous introduisons une notion de score réduisant le nombre de mots retenus.


  • Résumé

    Indexing structures are wellknown for exact subwords (suffix array, tree, automaton), however no indexing structure is known for approximate patterns. We study patterns with don't cares, for which a recent result proposed a linear bound of the number of maximal irredundant patterns with don't cares. We introduce the primitive patterns, allowing to reduce the number of interesting patterns that can be extracted from a given text. Like the maximal irredundant patterns, the primitive patterns form a basis for the maximal patterns. We show therefore that the number of primitive patterns, and consequently the number of maximal irredundant ones, is not linear but exponential. This work presents properties of such patterns, an extraction algorithm, and an algorithm which decides the primitivity without computing the basis. These algorithms are extended to the extraction in multiple texts, to the update after adding a new text, and to ambiguous characters for which the don't care character is a special case. We introduce a scoring scheme, reducing the number of conserved patterns.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 226 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 49 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 04/ROUE/S013
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.