Thèse soutenue

Ressemblance lexicale et structurale entre macromolécules : formalisation et approches combinatoires

FR  |  
EN
Auteur / Autrice : Marie-France Sagot
Direction : Maxime Crochemore
Type : Thèse de doctorat
Discipline(s) : Informatique fondamentale
Date : Soutenance en 1996
Etablissement(s) : Marne-la-Vallée

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Ce travail présente une formalisation du problème de la ressemblance entre macromolécules biologiques, ADN/ARN et protéines. Une première partie est ainsi composée par une exploration de cette ressemblance. D'une manière plus précise, ces macromolécules présentent la caractéristique commune d'être constituées par l'assemblage linéaire d'unités monomères distinctes (nucléotides pour l'ADN/ARN ou acides aminés pour les protéines) pouvant être représenté par une chaîne de symboles. Ces chaînes que nous allons vouloir comparer peuvent être vues comme des 'copies', ou des copies de copies différentes d'une même macromolécule ou d'une même forme ancestrale, chaque copie étant le résultat d'une suite particulière de transformations et de mutations effectuées sur des copies antérieures. Certaines parties de ces copies resteront cependant plus conservées que d'autres, et il est probable qu'il s'agit justement là de celles qui ont le plus de chance d'être associées, soit à une activité de la chaîne polymérique, soit à un élément structural qui sert de charpente à la structure générale de la macromolécule dans l'espace. Ce sont essentiellement ces parties qui nous intéressent dans ce travail et notre analyse des chaînes porte sur l'identification des mots présents dans ces chaînes et similaires entre eux d'une certaine façon. Outre l'idée d'une comparaison locale (mots), deux notions sont fondamentales dans les définitions de ressemblance que nous établissons : l'une est celle d'une comparaison multiple, l'autre celle de modèle. L'idée de la première repose sur l'observation que la comparaison simultanée d'un grand nombre d'objets permet d'être beaucoup plus sensible, c'est-à-dire, de détecter de plus faibles similarités entre ces objets. Le second concept (modèle) nous permet alors de réaliser cette comparaison simultanée de manière efficace. Un tel objet, qui est externe aux chaînes que l'on compare, peut être soit un mot sur le même alphabet, soit un produit cartésien de sous-ensembles des symboles de cet alphabet. La définition de ressemblance 'multiple' entre les mots des chaînes se trouve donc ramenée à cet objet de référence. Plus précisément, nous dirons que les mots d'un ensemble sont similaires entre eux s'il existe au moins un modèle auquel tous ressemblent. Notre recherche de mots similaires communs se résume alors à une recherche efficace de ces modèles présents, c'est-à-dire ayant des occurrences, dans au moins un certain nombre des chaînes de l'ensemble étudié. Finalement, le problème de la définition de la ressemblance entre mots se ramène à la définition de la ressemblance entre des mots et un modèle. Dans ce travail, nous proposons plusieurs de ces définitions avec le souci constant de leur conserver un caractère mathématiquement précis. Cette condition est en effet importante afin de donner au biologiste les moyens d'interpréter sans ambiguité les résultats fournis. Dans le même ordre d'idée, il est également important que les algorithmes de recherche des modèles soient exhaustifs. La seconde partie de ce travail a ainsi porté sur l'élaboration d'algorithmes combinatoires qui explorent tout l'espace des chaînes que l'on compare et qui fournissent en résultat une liste de tous les modèles, d'une longueur donnée ou de longueur maximale, présents, selon une des définitions de ressemblance entre modèle et mots, dans au moins un certain nombre des chaînes. Chacune de ces définitions a donné lieu à un algorithme spécifique. Le principe de base de ces algorithmes est cependant le même et s'appuie sur une formule de récurrence permettant la construction des modèles d'une certaine longueur à partir de ceux de longueur plus petite. Nous proposons ici des algorithmes qui sont tous linéaires dans la longueur totale des chaînes, et éventuellement exponentiels uniquement dans le degré de souplesse autorisé dans la ressemblance entre mots et modèles. Ce facteur exponentiel est intrinsèque au problème et représente toujours une situation de pire cas. Enfin, l'intérêt et les limitations actuelles de ces algorithmes sont illustrés sur des exemples biologiques