Bayesian network structure learning with applications in feature selection

par Sérgio Rodrigues de Morais

Thèse de doctorat en Informatique

Sous la direction de Joël Favrel.

  • Titre traduit

    = Apprentissage de la structure d'un réseau Bayésien avec des applications à la sélection de variables


  • Résumé

    Plusieurs algorithmes à base de contrainte ont été proposés récemment pour l'apprentissage de la structure de réseaux Bayésiens. Ils cherchent des relations d'indépendance conditionnelles parmi les variables sur un ensemble de données et construisent une structure locale autour de la variable cible sans devoir construire toute la structure du réseau Bayésien d'abord. Ces algorithmes sont appropriés aux situations où la qualité de données disponible est vaste par rapport au degré du réseau. C'est-à-dire le nombre de parents et des enfants de chaque variable dans le réseau est relativement petit par rapport au nombre d'instances dans la base de données. Cependant, ils sont piégés par un problème sévère : l'important nombre de négatifs faux. Ce problème bien connu est commun à toutes les méthodes à base de contrainte et ont été fortement considérés dans cette thèse. Les principales contributions de l'auteur de cette thèse incluent : 1. Une discussion sur des méthodes simples pour identifier et traiter des relations presque déterministes dans l'apprentissage de la structure de réseaux Bayésins à base de contrainte ; 2. Un nouveau algorithme appelé Hybride Parents et Enfants (HPC). HPC a été prouvé être correct dans la condition de fidélité ; 3. Une extension de HPC conçu dans le but spécifique de sélection de variables pour classification probaliliste ; 4. Un algorithme conservateur pour la sélection de variables à partir de jeux de données incomplets ; 5. Une nouvelle approche graphique pour exploiter des données marquant dans la modélisation des réseaux Bayésiens. Les principales applications des méthodes présentées dans cette thèse aux problèmes réels fait par l'auteur incluent : 1. L'application de l'algorithme HPC pour extraire les facteurs de risque qui sont statistiquement associés au cancer du Nasopharynx (NPC); 2. L'application de l'algorithme MBOR sur un ensemble de données de puces pour fournir une analyse robuste de diabète de type 2.


  • Résumé

    The study developed in this thesis focuses on constraint-based methods for identifying the Bayesian networks structure from data. Novel algorithms and approaches are proposed with the aim of improving Bayesian network structure learning with applications to feature sub- set selection, probabilistic classification in the presence of missing values and detection of the mechanism of missing data. Extensive empirical experiments were carried out on synthetic and real-world datasets in order to compare the methods proposed in this thesis with other state-of-the-art methods. The applications presented include extracting the relevant risk factors that are statistically associated with the Nasopharyngeal carcinoma, a robust analysis of type 2 diabetes from a dataset consisting of 22,283 genes and only 143 samples and a graphical representation of the statistical dependencies between 34 clinical variables among 150 obese women with various degrees of obesity in order to better understand the pathophysiology of visceral obesity and provide guidance for its clinical management.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IX-149 p.)
  • Annexes : Bibliogr. p. 138-149

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3442)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.