Algorithmes métaheuristiques hybrides pour la sélection de gènes et la classification de données de biopuces

par José Crispín Hernández Hernández

Thèse de doctorat en Informatique

Sous la direction de Jin-Kao Hao.

Soutenue en 2008

à Angers .


  • Résumé

    Les biopuces permettent de mesurer simultanément l'activité d'un grand nombre de gènes au sein d'échantillons biologiques et de réaliser un diagnostic (reconnaissance tissu sain/tissu cancéreux ou distinction entre différents types de cancer) à partir de ces données. Pour cette tâche de classification, on dispose d'un faible nombre d'échantillons alors que chaque échantillon est décrit par un très grand nombre de gènes. Dans cette thèse, nous nous intéressons à la sélection de gènes qui permet de proposer un sous-ensemble de gènes pertinents afin de construire un classifieur prédisant le type de tumeur qui caractérise un échantillon cellulaire. Le problème de la sélection de gènes est un problème très difficile et les algorithmes métaheuristiques à base de voisinage (méthodes de recherche locale) et à base de populations (algorithmes génétiques et algorithmes mémétiques) semblent bien appropriés pour traiter ce problème. Dans cette thèse, nous proposons plusieurs méthodes de sélection dites intégrées, combinant des algorithmes métaheuristiques avec un séparateur à vaste marge linéaire (SVM). Dans ces algorithmes, la qualité d'un sous-ensemble de gènes sélectionnés est évaluée grâce au classifieur SVM. De plus, nos algorithmes exploitent l'information de pertinence fournie par le classifieur SVM sur les différents gènes pour guider les mécanismes de recherche locale ou pour proposer des opérateurs génétiques spécialisés. Des expérimentations ont été réalisées sur les différents jeux de données disponibles dans la littérature et nos méthodes se révèlent très compétitives par rapport aux travaux existants.


  • Résumé

    DNAmicroarray technologies permit tomeasure simultaneously gene expressions for thousands of genes in a sample and enable to consider molecular cancer diagnosis based on gene expression. Data that are currently available in this field concern a very large number of variables (thousands of gene expressions) relative to a small number of observations (typically under one hundred samples). This thesis deals with the problem of gene selection, which aims to propose a subset of relevant genes in order to build efficient classifiers to recognize different types of tumor. The problem of gene selection is a very hard problem, for which metaheuristics algorithms based on neighbourhood (local search methods) and population (genetic algorithms and memetic algorithms) seem appropriate. In this thesis, we propose several embedded gene selection methods, that combine metaheuristics algorithms with a support vector machine. In these algorithms, the quality of a selected gene subset is evaluated by a linear SVM classifier trained on this subset. Moreover, these algorithms use the relevance measure, given by the linear SVM about each gene, to inform the search process or to build very specialized genetic operators. Experimentations performed on available data sets show very competitive results when compared to the state-ofthe-art works.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (115 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 101-113. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Angers. Service commun de la documentation. Section Lettres - Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.