Incertitude des prédictions dans les modèles d'apprentissage profonds appliqués à la classification fine

par Titouan Lorieul

Projet de thèse en Informatique

Sous la direction de Alexis Joly.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 199.-....) (laboratoire) et de Département Informatique (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    Les réseaux neuronaux profonds ont apporté des progrès spectaculaires dans diverses tâches de classification telles que la classification d'images, la classification de sentiments ou de tâches plus précises comme la reconnaissance de chants d'oiseaux. Les modèles les plus performants de la littérature optimisent l'entropie croisée catégorielle et prédisent une distribution catégorielle à l'aide d'une fonction d'activation de type Softmax. Bien que ces modèles soient très puissants, ils ne font pas la distinction entre l'incertitude issue des données elles-mêmes de l'incertitude résultant du modèle. Dans de nombreux scénarios concrets, à partir d'une certaine donnée d'entrée, il peut en réalité être impossible de déterminer l'annotation exacte parce que la donnée, par elle-même, ne contient pas suffisamment d'informations pour décider parmis différentes classes similaires. Contrairement à la classification multi-tâche où, à chaque échantillon, est associé plusieurs annotations, ici, chaque échantillon correspond à une et une seule étiquette mais cette dernière est incertaine. Par exemple, une image d'une feuille de plante peut ne pas être suffisante pour distinguer parmis les différentes espèces possibles qui partagent la même morphologie de feuille. En classification fine, la plupart des échantillons contiennent, intrinséquement, une certaine quantité de cette ambiguité d'étiquetage même s'ils sont associés à une seule de ces étiquettes. De plus, le réseau, lui-même, introduit une autre forme d'incertitude dans la prédiction, appelée l'incertitude du modèle. Intuitivement, le modèle agit comme un estimateur biasé de l'ambiguité d'étiquettage avec plus ou moins de variance. Cette incertitude devrait progressivement diminuer avec l'augmentation de la taille du jeu de données d'entrainement, au contraire de l'ambiguité intrinsèque qui, elle, est théoriquement irréductible. Le but de cette thèse est d'étuder des méthodes pour estimer séparément ces deux types d'incertitude. Pouvoir les distinguer permet ensuite de s'attaquer à quelques tâches concrètes, telles que la classification avec rejet ou/et la prédiction d'un ensemble.

  • Titre traduit

    Uncertainty in predictions of Deep Learning models for fine-grained classification


  • Résumé

    Deep neural networks have shown dramatic improvements in various supervised classification tasks such as image classification, sentiment classification or more specific tasks such as bird sounds recognition. Models achieving the best performance in the literature usually optimize the categorical cross-entropy and predict a categorical distribution using a softmax activation function. Although this type of models is very powerful, it does not make a distinction between the uncertainty resulting from the data itself from the uncertainty arising from the model. In many real-world scenarios, given a data item, it might actually be impossible to determine its exact label because the item does not, by itself, contain sufficient evidence to decide between several similar classes. Unlike to multi-task classification where each item is associated with several labels, here, each item corresponds to exactly one label but this latter is uncertain. For instance, an image of a plant leaf might not be enough to distinguish between several possible species sharing the same leaf morphology. In fine-grained classification problems, most data samples intrinsically contain a certain amount of such label ambiguity even if they are associated to a single hard label. Furthermore, the network itself introduces an additional uncertainty in the prediction, called model uncertainty. Intuitively, the model acts as a biased estimator of the label ambiguity with more or less variance. This uncertainty is expected to be progressively reduced by increasing the training set size contrary to the intrinsic ambiguity of the data items which is theoretically irreducible. The goal of this PhD is to study approaches to separately esimate these two types of uncertainties. Being able to distinguish between them also allows to tackle some interesting real-world tasks such as perform classification with reject option or/and set prediction.