Thèse soutenue

Apprentissage actif par modèles locaux

FR  |  
EN
Auteur / Autrice : Alexis Bondu
Direction : Stéphane Loiseau
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Angers
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Etudes et de Recherche en Informatique d'Angers

Résumé

FR  |  
EN

Les méthodes d'apprentissage statistiques exploitent des exemples, pour enseigner un comportement à un modèle prédictif. La classification supervisée requiert des exemples étiquetés. En pratique, l'étiquetage des exemples peut se révélé coûteux. Dans certain cas, l'étiquetage implique un expert humain, un instrument de mesure, un temps de calcul élevé. . . Etc. Les méthodes d'apprentissage actif réduisent le coût de préparation des données d'apprentissage. Ces méthodes cherchent à étiqueter uniquement les exemples les plus utiles à l'apprentissage d'un modèle. Les travaux présentés dans ce manuscrit sont réalisés dans le cadre de l'échantillonnage sélectif, qui n'autorise pas les stratégies actives à générer de nouveaux exemples d'apprentissage. Les stratégies actives de la littérature utilisent généralement des modèles globaux à l'espace des variables d'entrées. Nous proposons dans ce manuscrit une stratégie originale qui effectue un partitionnement dichotomique récursif de l'espace d'entrée. Cette stratégie met en compétition les modèles locaux à chacune des zones, pour choisir les exemples à étiqueter. Notre stratégie décide “quand” couper une zone et “où” la couper. Une amélioration possible consiste à exploiter une méthode de discrétisation pour prendre ces deux décisions. L'extension de l'approche de discrétisation MODL au cas de l'apprentissage semi-supervisé constitue un des apports majeurs de cette thèse. Nous proposons une deuxième amélioration qui consiste à sélectionner, localement à la meilleure zone, l'exemple le plus utile à l'apprentissage du modèle local. Nous proposons une stratégie active originale, qui maximise la probabilité des modèles de discrétisation connaissant les données et l'exemple candidat à l'étiquetage.