Apprentissage actif par modèles locaux

par Alexis Bondu

Thèse de doctorat en Informatique

Sous la direction de Stéphane Loiseau.

Soutenue en 2008

à Angers .


  • Résumé

    Les méthodes d'apprentissage statistiques exploitent des exemples, pour enseigner un comportement à un modèle prédictif. La classification supervisée requiert des exemples étiquetés. En pratique, l'étiquetage des exemples peut se révélé coûteux. Dans certain cas, l'étiquetage implique un expert humain, un instrument de mesure, un temps de calcul élevé. . . Etc. Les méthodes d'apprentissage actif réduisent le coût de préparation des données d'apprentissage. Ces méthodes cherchent à étiqueter uniquement les exemples les plus utiles à l'apprentissage d'un modèle. Les travaux présentés dans ce manuscrit sont réalisés dans le cadre de l'échantillonnage sélectif, qui n'autorise pas les stratégies actives à générer de nouveaux exemples d'apprentissage. Les stratégies actives de la littérature utilisent généralement des modèles globaux à l'espace des variables d'entrées. Nous proposons dans ce manuscrit une stratégie originale qui effectue un partitionnement dichotomique récursif de l'espace d'entrée. Cette stratégie met en compétition les modèles locaux à chacune des zones, pour choisir les exemples à étiqueter. Notre stratégie décide “quand” couper une zone et “où” la couper. Une amélioration possible consiste `a exploiter une méthode de discrétisation pour prendre ces deux décisions. L'extension de l'approche de discrétisation MODL au cas de l'apprentissage semi-supervisé constitue un des apports majeurs de cette thèse. Nous proposons une deuxième amélioration qui consiste à sélectionner, localement à la meilleure zone, l'exemple le plus utile à l'apprentissage du modèle local. Nous proposons une stratégie active originale, qui maximise la probabilité des modèles de discrétisation connaissant les données et l'exemple candidat à l'étiquetage.


  • Résumé

    Supervised classification problems requires labelled examples, and labelling step can be costly in practice. Active learning strategies reduce the cost of preparing learning data. These strategies aim to label only the most useful examples for the learning of the predictive model. This thesis proposes a new active learning strategy which carries out a recursive binary partitionning of the input space. This strategy handles severals local predictive models in each zones, and chooses examples to be labelled. Our strategy decides “when” and “where” a zone must be cut. A possible improvement consists in exploiting a discretization methode to make both decisions. The extension of the MODL discretisation approach to the semi-supervised learning constitutes an importante contribution of this thesis. We propose a second improvement which aims to select, locally in the best zone, the most useful example for the training of the local model. We propose an active learning strategy based on the semi-supervised MODL approach, which maximizes the probability of discretization models given the data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (156 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 149-156

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Angers. Service commun de la documentation. Section Lettres - Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.