Analyse geometrique des donnees de dissimilarite par la multidimensional scaling : une approche parallele basee sur les algorithmes genetiques. application aux sequences biologiques

par Roger Ngouenet

Thèse de doctorat en Sciences biologiques et fondamentales appliquées. Psychologie

Sous la direction de I.-C. LERMAN.

Soutenue en 1995

à Rennes 1 .

    mots clés mots clés


  • Résumé

    L'objet de cette these est l'etude d'une methode robuste utilisant les algorithmes genetiques pour la representation geometrique euclidienne des coefficients de proximites, plus particulierement les indices de dissimilarite non euclidiens, et ce, par la multidimensional scaling. Nous adoptons l'approche des moindres carres initialisee par kruskal qui consiste a generer des configurations par l'optimisation des criteres numeriques apres fixation d'une metrique et de la dimension de l'espace de visualisation des graphes. Notre presentation restreint son ambition au cadre euclidien. Dans un premier temps, nous presentons plusieurs methodes de la multidimensional scaling fondes sur le gradient ou sous-gradient et des transformations algebriques plus ou moins justifiees dont le developpement pose d'importants problemes de mise en uvre et nous proposons d'optimiser les fonctions pertes, independamment des modeles, par les algorithmes genetiques. Les algorithmes genetiques representent des techniques d'optimisation stochastiques inspirees directement de la theorie darwinienne, sur les mecanismes de l'evolution naturelle des etres vivants et de la genetique. L'originalite des structures markoviennes soulevees par ces algorithmes a conduit au developpement des theories complexes permettant de mieux apprehender leur comportement asymptotique. Ainsi, nous faisons reference aux recents resultats sur la convergence proposes par gunter et fondes sur l'inhomogeneite du processus markovien genere par un algorithme genetique canonique. Nous montrons qu'une adaptation judicieuse des algorithmes genetiques a la problematique de la multidimensional scaling concourre a l'amelioration nette de la qualite numerique des solutions. Nous etudions en particulier la question du croisement, probleme sous-jacent au codage considere. Nos chromosomes sont codes au moyen des composantes reelles dont est constitue la configuration et nous proposons un operateur de croisement synthetique original conduisant a l'acceleration de l'algorithme. Les comparaisons avec d'autres algorithmes sont effectuees. Notre algorithme est moins rapide mais produit de meilleurs resultats. Toutefois, la complexite temporelle est assez importante des lors qu'il s'agit de traiter des donnees de grande taille. En outre, notre approche apporte une solution elegante aux problemes poses dans le passe par la necessite d'activer les logiciels actuels de la multidimensional scaling avec plusieurs configurations initiales suffisamment distinctes. C'est ainsi qu'en prenant en consideration certaines proprietes inherentes aux algorithmes genetiques, nous proposons une strategie efficace d'hybridation avec des algorithmes de descente classiques. Nous etudions ensuite la parallelisation de nos algorithmes et des versions paralleles orientes architecture multiprocesseur a memoire distribuee sont proposees. Nous obtenons un speed-up presque lineaire. Notre methode fait l'objet d'une application reelle en biologie moleculaire et plus particulierement sur des proteines dont on possede les structures primaires. Pour le calcul des dissimilarites, nous utilisons des quantites d'information associes a des indices probabilistes issus de la methode de classification avl (analyse par la vraisemblance du lien) et qui presente l'avantage d'avoir eu un bon comportement dans la classification hierarchique des proteines. Enfin, nous presentons des resultats issus d'une implantation sur la machine multi-processeur paragon d'intel

  • Titre traduit

    Parallel genetic algorithms for multidimensional scaling: application to statistical analysis of biological sequences


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 180 P.
  • Annexes : 134 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes 1. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 1995/126

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 1995REN10172
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.