Classification with a reject-option to improve transcriptomic data based decision support systems

par Malik-Sajjad-Ahmed Nadeem

Thèse de doctorat en Informatique médicale

Sous la direction de Jean-Daniel Zucker.

Soutenue en 2011

à Paris 13 .

  • Titre traduit

    Classification avec option de rejet pour améliorer les systèmes de décision basés sur les données transcriptomiques


  • Résumé

    L’obésité et le cancer sont des maladies complexes multifactorielles. Les données de puces à ADN représentent une source importante de connaissances pour étudier ces maladies. Le choix d’une thérapie pour lutter contre l’obésité pourrait avoir un impact élevé sur sa prévalence, mais l’utilisation de modèles prédictifs dans ce cadre reste un domaine de recherche relativement inexploré. De telles méthodes sont utilisées pour l’aide au diagnostic avec un certain succès dans le domaine du cancer, mais elles nécessitent encore des améliorations. La majorité des études de puces à ADN sont basées sur des schémas de classification dans lesquels tous les échantillons sont classés, quelque soit le degré de confiance associé à leur classification. Dans le domaine thérapeutique, il est plus sûr de s’abstenir de prendre une décision si le degré de confiance n’est pas assez élevé, plutôt que de proposer une mauvaise thérapie. Des études basées sur des approches d’apprentissage computationnel suggèrent l’utilisation d’une option de rejet dans les systèmes de décision. Le rejet d’ambiguïté et le rejet de distance sont parmi les principales méthodes de rejet, mais les performances prédictives des méthodes de classification n’atteignent pas toujours le niveau souhaité avec ces approches. Le manuscrit de cette thèse explore tout d’abord ces deux approches dans le cadre de données de puces pour l’obésité et le cancer, puis suggère leur combinaison pour adresser le problème des faibles performances de classification. De plus, des méthodes graphiques permettant de visualiser et de comparer les performances prédictives des méthodes de classification avec option de rejet sont présentées : Accuracy-Rejection Curves (ARCs) et Cost-Rejection Curves (CRCs). Nous avons analysé empiriquement les trois approches de rejet avec l’aide des ARCs et des CRCs pour des données simulées, ainsi que pour les données d’obésité et de cancer. Les trois expériences ont montré une amélioration des résultats.


  • Résumé

    Data extracted from DNA microarrays is considered an important source of knowledge about obesity and cancer like complex diseases. Few obe studies exist to predict the outcomes of different therapies. The choice of a therapy for obesity could have high impact in the prevalence of this disease and the use of predictive models for this is relatively an unexplored field of research. In cancer studies, such methods are used with some success but they still need improvements. Generally, in microarray classification, ail the samples are classified, regardless of the degree of confidence associated with the classification of a particular sample. It is wise to refrain from making a decision about a therapy if the degree of confidence on a diagnosis is flot high, rather than suggesting a wrong therapy. Few studies based on machine learning approaches suggested the use of reject-option in decision support systems. Sometimes, with principal reject-option approaches (the ambiguity-reject and the distance-reject) the predictive performances of classification methods do flot become up-to a desired level. In this thesis we first explore these reject-option approaches and then address the problem of low performing classification methods by suggesting the combination of both approaches. Moreover, graphical methods i. E. Accuracy Rejection Curies (ARCs) and Cost-Rejection Curves (CRCs), for visualizing and comparing the predictive performances of classification methods with a reject-option, are presented. Empirical results based on three reject option approaches and with the help of ARCs and CRCs for synthetic data, obesity data and cancer data have shown the improved results.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (438 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.341-359

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • PEB soumis à condition
  • Cote : TH 2011 080
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.