Logique floue et algorithmes génétiques pour le pré-traitement de données de biopuces et la sélection de gènes

par Edmundo Bonilla Huerta

Thèse de doctorat en Informatique

Sous la direction de Jin-Kao Hao.

Soutenue en 2008

à Angers .


  • Résumé

    Dans le domaine de la biologie moléculaire, les technologies d'analyse d'expression génique comme les biopuces suscitent un intérêt très grand. Une des applications de ces technologies est le diagnostic et la classification de différents types de tumeurs. Une des particularités des données issues des biopuces est qu'elles sont décrites par un très grand nombre d'attributs (gènes) alors que peu d'échantillons analysés sont disponibles. Cela empêche la compréhension des données et réduit de manière considérable la performance des algorithmes de classification. Dans cette thèse, nous proposons des méthodes innovantes pour réduire la taille initiale des données et pour sélectionner des ensembles de gènes pertinents pour une classification supervisée. Nous proposons tout d'abord une méthode de pré-traitement des données et de réduction de dimension basée sur la logique floue. Le problème de la sélection d'attributs est ensuite traité par deux types d'approche. Dans la première, nous proposons une méthode enveloppe qui grâce à une double exploration génétique sélectionne un ensemble de gènes pertinents pour un classifieur SVM. Dans la deuxième, nous proposons une méthode intégrée où les informations fournies par un classifieur linéaire (ADL) guident le processus de recherche vers un sous-ensemble de petite taille et performant pour la classification. Les différentes expérimentations que nous avons menées montrent de très bonnes performances, surtout pour la méthode intégrée.

  • Titre traduit

    Fuzzy logic and genetic algorithms for the pre-processing of microarray data and gene selection


  • Résumé

    In molecular biology, technologies for gene expression analyses, as DNA microarrays, give rise to a lot of research. One possible application of such technologies is diagnosis and recognition of different kinds of tumours. One particularity of microarray data is their great number of attributes (genes) whereas very few samples are available. This dimensionality problem makes the data difficult to understand and reduces the efficiency of classification algorithms. This thesis proposes newmethods to reduce the initial dimension of data and to select relevant gene subsets for classification. First, we propose a method for data pre-processing and dimension reduction based on fuzzy logic. Then the problem of gene selection is treated by two kinds of approaches. In the first one, we propose a wrapper method that selects a relevant gene subset for a SVM classifier by a double genetic exploration. In the second approach, we propose an embedded method where LDA classifier provides information about gene relevancy to guide the genetic algorithm. The different experimentations that we have performed give very good results, especially for the embedded method.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (131 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 119-129. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université d'Angers. Service commun de la documentation. Section Lettres - Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.