Thèse soutenue

Imprécision en apprentissage statistique

FR  |  
EN
Auteur / Autrice : Vu-Linh Nguyen
Direction : Sébastien DesterckeMarie-Hélène Masson
Type : Thèse de doctorat
Discipline(s) : Informatique : Unité de recherche Heudyasic (UMR-7253)
Date : Soutenance le 27/09/2018
Etablissement(s) : Compiègne
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur (Compiègne)
Partenaire(s) de recherche : Laboratoire : Heuristique et Diagnostic des Systèmes Complexes [Compiègne] / Heudiasyc

Résumé

FR  |  
EN

Nous nous sommes concentrés sur la modélisation et l'imprécision dans les problèmes d'apprentissage automatique, où les données ou connaissances disponibles souffrent d'imperfections importantes. Dans ce travail, les données imparfaites font référence à des situations où certaines caractéristiques ou les étiquettes sont imparfaitement connues, c'est-à-dire peuvent être spécifiées par des ensembles de valeurs possibles plutôt que par des valeurs précises. Les apprentissages à partir de données partielles sont couramment rencontrés dans divers domaines, tels que la biostatistique, l'agronomie ou l'économie. Ces données peuvent être générées par des mesures grossières ou censurées, ou peuvent être obtenues à partir d'avis d'experts. D'autre part, la connaissance imparfaite fait référence aux situations où les données sont spécifiées avec précision, cependant, il existe des classes qui ne peuvent pas être distinguées en raison d'un manque de connaissances (également appelée incertitude épistémique) ou en raison d'une forte incertitude (également appelée incertitude aléatoire). Considérant le problème de l'apprentissage à partir de données partiellement spécifiées, nous soulignons les problèmes potentiels liés au traitement de plusieurs classes optimales et de plusieurs modèles optimaux dans l'étape d'inférence et d'apprentissage, respectivement. Nous avons proposé des approches d'apprentissage actif pour réduire l'imprécision dans ces situations. Pourtant, la distinction incertitude épistémique/aléatoire a été bien étudiée dans la littérature. Pour faciliter les applications ultérieures d'apprentissage automatique, nous avons développé des procédures pratiques pour estimer ces degrés pour les classificateurs populaires. En particulier, nous avons exploré l'utilisation de cette distinction dans les contextes d'apprentissage actif et prudent.