Classifieur probabiliste et séparateur à vaste marge : application à la classification de texte et à l'étiquetage d'image

par Anh Phuc Trinh

Thèse de doctorat en Informatique

Sous la direction de Patrick Gallinari.

Soutenue en 2012

à Paris 6 .


  • Résumé

    Cette thèse propose des estimateurs de probabilités a posteriori pour des Séparateur à Vaste Marge. Elle comporte une partie théorique et une partie expérimentale. La première contribution que nous présentons dans cette thèse est d’introduire un classifieur probabiliste basé sur des SVM pour la classification multi-classes. L’approche que nous utilisons est l’approche 1 contre 1, où pour un problème à k classes k(k - 1)/2 classifieurs sont entrainés. Les sorties binaires de ces classifieurs forment un espace de votes dans lequel sera prise la décision de classe. Nous introduisons un espace de vote enrichi qui permet de prendre en compte des relations entre l’ensemble des classes du problème et proposons une méthode pour apprendre à partir de cet espace binaire à estimer les probabilités a posteriori des classes. La seconde contribution concerne le problème de la classification multi-étiquettes et la prise en compte de dépendances entre étiquettes. La prédiction de sorties structurées a été ces dernières années un domaine extrêmement actif et de nombreux modèles basés sur des extensions des SVMs ou des modèles graphiques on été proposés. Nombre de ces modèles ont une complexité qui empêche toute application sur des données réelles. Nous introduisons un classifieur multi-étiquettes basé sur un formalisme de modèle graphique non dirigé. Nous proposons une méthode d’inférence approchée de complexité limitée qui permet une utilisation pratique de ces méthodes. Nous incorporons dans ce modèle les classifieurs probabilistes mentionnés plus haut pour estimer les probabilités nécessaires au calcul d’inférence. La troisième contribution est la validation expérimentale de ces idées et algorithmes. Une première application nous permet de tester notre classifieur probabiliste multi-classes. Il s’agit du Défi DEFT 1 qui est une compétition française sur la classification de textes. Les données sur lesquelles nous avons travaillé traitent de classification en thème et en genre de corpus journalistiques. La seconde application que nous avons traitée porte sur l’étiquetage d’images en utilisant une information de dépendance entre les étiquettes. Elle correspond à une tâche proposée dans la compétition internationale ImageCLEF08 2. Nous proposons un modèle graphique adapté à cette tâche qui nous permet de valider ce modèle multi-étiquettes.

  • Titre traduit

    Probabilistic classifier and support vector machines : applications of classifying texts and of labeling images


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIII-109 p.)
  • Annexes : Bibliogr. p. 103-109

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2012 60
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.