Placement de processus sur machines parallèles : l'approche évolutionnaire

par Philippe Millet

Thèse de doctorat en Sciences appliquées. Électronique

Sous la direction de Jean-Claude Heudin.


  • Résumé

    Le traitement du signal digital numérique exige des machines parallèles spécialisées de hautes performances et de haute fiabilité. Ces machines doivent pouvoir fonctionner pendant plusieurs mois, voire plusieurs années sans s'arrêter et sans assistance humaine. Ceci entraîne deux problèmes : détecter la panne, et la résoudre. La détection des pannes passe se fait par des autotests embarqués, dont le taux de couverture fait l'objets de nombreuses études depuis plusieurs années. La résolution des pannes semble cependant impossible (comment faire marcher une machine dont une partie ne fonctionne plus?), on se contente généralement de doubler le matériel ou de demander l'assistance d'un technicien. Pourtant, à la condition que la machine sache réaliser un placement des processus à exécuter sur les ressources qui lui reste, elle pourrait se "réparer" d'elle même. Le problème général est décomposé en six modèles : (1) le partitionnement, (2) l'ordonnancement, (3) l'alignement, (4) les communications, (5) l'architecture, (6) l'allocation mémoire, chacun d'eux disposant d'une combinatoire propre. Dans le cas d'une réorganisation de l'allocation des ressources, une partie du problème général est déjà traitée, il reste pourtant d'une complexité exponentielle. L'utilisation d'un modèle simplifié d'allocation de processus sur une machine parallèle nous permet d'évaluer un recuit simulé, un algorithme génétique et un algorithme de programmation génétique pour la modification d'une configuration comportant des ressources en pannes et un placement complet d'une application déjà partitionnée. Un prototype de placeur permettant de réparer une machine réelle, a été réalisé.

  • Titre traduit

    Processes placement on parallels machines : the evolutionary approach


  • Résumé

    Digital signal processing needs specialized parallel machines with high performances and high liability. Some of these machines have to run for months or even years without stop and without any human care. This leads to two problems : to detect the fault, and to solve it. The faults detection is done using built in self tests. The coverage of such tests has been discussed in many studies for many years. The resolution of the fault seems impossible (how to make working a machine when a part of it is not working properly?), usually the hardware is duplicated or a technical man come to repair it. However, if only the machine could achieve process placement on its remaining resources, it could "repair" it-self. The total problem is made of six models : (1) partitionnement, (2) schedule, (3) alignment, (4) communications (5) architecture (6) memory allocation,each having its own combinatorics. In the case of re-organizing the allocation of resources, a part of the global problem is already treated, but it still remains of exponential complexity. Using a simplified processus mapping model of a parallel machine we evaluate a simulated annealing, a genetic algorithm and a genetic programming algorithm to evaluate for the modification of an existing configuration having some faulty resources and a complete mapping of an application already partitioned. A prototype of the mapping algorithm dedicated to "repair" a real machine, CAMARO, after faulty resources detection, has been made.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (240 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 197-219

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2005)221
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.