Analyse et déploiement de solutions algorithmiques et logicielles pour des applications bioinformatiques à grande échelle sur la grille

par Raphaël Bolze

Thèse de doctorat en Informatique

Sous la direction de Frédéric Desprez.


  • Résumé

    Cette thèse présente un ensemble d'objectifs dont le fil conducteur est le programme Décrypthon (projet tripartite entre l'AFM, le CNRS et IBM) où les applications et les besoins ont évolué au fur et à mesure de l'avancée de nos travaux. Dans un premier temps nous montrerons le rôle d'architecte que nous avons endossé pour la conception de la grille Décrypthon. Les ressources de cette grille sont supportées par les cinq universités partenaires (Bordeaux I, Lille I, ENS-Lyon, Pierre et Marie Curie Paris VI et Orsay), ainsi que le réseau RENATER (Réseau National de Télécommunications pour l'Enseignement et la Recherche), sur lequel est connecté l'ensemble des machines. Le Centre de ressources informatiques de Haute Normandie (CRIHAN) participe également au programme, il héberge les données volumineuses des projets scientifiques. Nous présenterons ensuite les expériences que nous avons effectuées sur l'intergiciel DIET afin de tester ses propriétés de façon à explorer sa stabilité dans un environnement à grande échelle comme Grid'5000. Nous nous sommes intéressés, en outre, au projet "Help Cure Muscular Dystrophy", un des projets sélectionnés par le programme Décrypthon. Nous avons conduit des expériences dans le but de préparer la première phase de calcul sur la grille de volontaires "World Community Grid". Nous dévoilerons l'ensemble des étapes qui ont précédées et suivies la première phase calculatoire qui a demandé quelques 80 siècles de temps processeur. Pour terminer, nous avons développé une fonctionnalité à l'intergiciel DIET, le rendant capable de gérer l'exécution de tâches ayant des dépendances. Nous nous sommes intéressés à développer des algorithmes prenant en compte plusieurs applications qui demandent l'accès aux mêmes ressources de manière concurrente. Nous avons validé cette fonctionnalité avec des applications issues des projets du programme Décrython. Ces travaux ont nécessité un développement logiciel important, d'une part sur les applications du Décrypthon elles-mêmes et sur leur portage afin de rendre transparente leur utilisation sur la grille Décrypthon, mais aussi au niveau de l'intergiciel DIET et son écosystème : DIET_Webboard, VizDIET, GoDIET, LogService, MA_DAG, etc. Les résultats présentés ont été obtenus sur trois grilles mises à notre disposition: la grille universitaire du Décrypthon, la grille d'internautes (World Community Grid) et la grille expérimentale Grid'5000.

  • Titre traduit

    Analysis and deployment of algorithm and software solutions forlarge scale bioinformatic applications into computing grid


  • Résumé

    This thesis was conducted by the needs of the Decrypthon project (collaborative project between AFM, CNRS and IBM). First we show the role of architect played in order to select and define the Decrypthon grid infrastructure. The resources of this grid are hosted by five Universities (Bordeaux I, Lille I,ENS-Lyon, Pierre et Marie Curie Paris VI et Orsay). The network connexion is provided by RENATER (R´eseau National de T´el´ecommunications pour l’Enseignement et la Recherche). The CRIHAN ( Centre de ressources Informatiques de Hautes Normandie) is also involved into this parternship and provides data warehouse for scientists. In a second hand we present several experiments carried on Grid’5000 in order to validate the grid middleware DIET and its tools on a large scale platform such as Grid’5000. On this research platform, we also studied the application of the project ”Help Cure Muscular Dystrophy”, one of the project selected by the Decrypthon. This study prepared the launch of a 6 months computing phase on the volunteers grid : World Community Grid support by IBM US. The document presents all steps before and after the computing phase which require more than 80 centuries of CPU time on the volunteers device. Finally, we have designedseveral heuristics to tackle the problem of online multi-workflow scheduling in a shared grid environment. We have implemented those heuristics into DIET middleware and we have validated their behavior with case study applications from Decrypthon. This work required many software developments in the aim to grid enabled bioinformatic applications and transparenlty give access to the Decrypthon grid, but also into DIET middleware and tools around : DIET Webboard, VizDIET, GoDIET, LogService, MA DAG, etc. The results exposed in this thesis were obtained with tree different grids : the Decrypthon grid, the volunteer grid (World Community Grid) and the research grid (Grid’5000).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. ( 192 p.)
  • Annexes : Bibliogr. p. 183-192

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque Diderot Sciences (Lyon).
  • Disponible pour le PEB
  • Bibliothèque : Bibliothèque Diderot Sciences (Lyon).
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.