Sélection de modèle pour la classification croisée de données continues

par Aurore Lomet

Thèse de doctorat en Technologies de l’information et des systèmes

Sous la direction de Gérard Govaert et de Yves Grandvalet.

Soutenue en 2012

à Compiègne .

  • Titre traduit

    Model selection in block clustering for continuous data


  • Pas de résumé disponible.


  • Résumé

    La classification croisée a pour objectif de partitionner simultanément les lignes et les colonnes d'un tableau de données pour révéler la structure en blocs homogènes. Parmi les différentes méthodes proposées, l'une d'entre elles utilise le modèle probabiliste des blocs latents. Pour un même jeu de données, plusieurs classifications croisées qui diffèrent par le nombre de classes par exemple peuvent être proposées. La sélection du nombre de classes devient alors un problème fondamental afin d'obtenir une classification des données pertinente. De plus, l'absence de jeu de données réelles de référence limite l'évaluation objective des méthodes d'apprentissage. De ce fait, l'utilisation des données simulées est particulièrement intéressante. Cependant, leur conception pose plusieurs problèmes : la quantification de la difficulté du problème d'apprentissage qui s'exprime par le risque de Bayes en classification simple est problématique en raison de la double nature de la dimension du tableau. La première contribution de cette thèse réside donc en la définition d'une mesure objective du niveau de difficulté d'un problème de classification croisée afin de proposer un protocole de simulation pour lequel le degré de mélange des classes est contrôlé. Pour ce faire, nous revenons sur la définition des fonctions de coût des règles de Bayes et des risques. Puis, nous décrivons les difficultés liées à l'estimation de ces quantités. A partir de ces dernières, nous définissons un risque de Bayes conditionné par le tableau de données observé comme mesure du niveau de difficulté. Par la suite, nous proposons un protocole de simulation utilisant le modèle de blocs latents pour lequel le niveau de difficulté exprimé par ce risque conditionnel est contrôlé. Pour le choix du nombre de classes, nous proposons dans cette thèse une nouvelle procédure utilisant des critères de sélection de modelé reposant sur des justifications théoriques et ne nécessitant pas de calculs supplémentaires coûteux après l'estimation du modèle de blocs latents. Puisque nous employons un modèle probabiliste, nous adaptons le critère ICL qui a été initialement défini pour le choix du nombre de composants des modèles de mélange. Nous développons trois versions qui diffèrent suivant les hypothèses et les distributions a priori posées. Nous proposons également un critère dérivé BIC. Les résultats obtenus du critère ICL exact informatif et des deux critères asymptotiques ICLBIC et BIC sur des jeux de données simulées et réelles montrent que ceux-ci sont performants et robustes pour des tableaux suffisamment grands quant à la sélection du nombre de classes et du type de modèle.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (140 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 80 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Technologie de Compiègne. Service Commun de la Documentation.
  • Disponible pour le PEB
  • Cote : 2012 LOM 2041
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.