Apprentissage Profond explicable Application sur les données multimodales

par Rupayan Mallick

Projet de thèse en Informatique

Sous la direction de Jenny Benois-pineau et de Akka Zemmari.

Thèses en préparation à Bordeaux , dans le cadre de École doctorale de mathématiques et informatique , en partenariat avec LaBRI - Laboratoire Bordelais de Recherche en Informatique (laboratoire) et de Images et Son (equipe de recherche) depuis le 23-09-2020 .


  • Résumé

    L'arrivée des réseaux neuronaux profonds (DNN) pour l'interprétation de données visuelles et multi-variables a révolutionné l'apprentissage machine et a rendu possible les applications du monde réel grâce au très fort pouvoir de généralisation de ces outils d'apprentissage machine. Au début de l'utilisation de ces classificateurs, les DNN étaient souvent considérés comme des ' boîtes noires ' et étaient adaptés à la classification visuelle ou à d'autres tâches de classification de données par simple apprentissage sur de grands corpus étiquetés. Néanmoins, de nombreuses applications du monde réel nécessitent d'expliquer pourquoi le classificateur prend une telle décision en ce qui concerne la taxonomie des classes cibles. C'est pourquoi les premiers travaux sur le 'backtracing' des cartes des caractéristiques ont été développés et appliqués à la classification d'images [1], [2], [3]. Par la suite, l'utilisation des éléments les plus marquants dans les différentes couches de CNN a permis d'introduire ce qu'on appelle les 'mécanismes d'attention' [4] qui procèdent par rétropropropagation des éléments marquants en renforçant les données d'entrée pertinentes pour la décision finale. Une comparaison de ces mécanismes avec la propagation des caractéristiques visuelles saillantes construite sur la base de la mesure de l'attention humaine a été récemment effectuée dans [5]. -Dans la these quant à la composante visuelle, nous aborderons l'explication des décisions des classificateurs à l'aide des cartes d'attention visuelle générées sur la base des fixations du regard et différentes approaches du suivi des caractéristiques dans des couches convolutionnelles . En ce qui concerne les séries temporelles, une telle recherche a été récemment menée [6] pour comprendre quelles caractéristiques pendant quel intervalle de temps sont à nouveau responsables d'une prédiction donnée, ainsi que pour expliquer pendant quels intervalles de temps a eu lieu la contribution conjointe de toutes les caractéristiques les plus importantes pour cette prédiction. Dans la recherche proposée, nous nous intéressons aux explications des décisions prises par les classificateurs DNN sur des données hétérogènes: à la fois les séries temporelles provenant de capteurs physiologiques et électrodynamiques et la composante visuelle, c'est-à-dire la vidéo. Pour une telle recherche, plusieurs corpus sont déjà disponibles, dont ceux produits par le LABRI et disponibles sur le serveur Nakala du CNRS tels que Grasping -in-the Wild, ou le corpus LifeLog disponible à la DCU. Comme domaine d'application nous ciblerons les grands projets de l'Université de Bordeaux 'AI - SPORT' et de l'IT-Santé avec BPH.

  • Titre traduit

    Explainable Deep Learning Application on the multi-modal data


  • Résumé

    The adventure of Deep Neural Networks (DNNs) for interpretation of visual and multi-variate data made a revolution in machine learning and made the real-world applications possible due to the very strong generalization power of these Machine Learning tools. At the earlier age of usage of these classifiers DNNs were often considered as “black-boxes” and adpted to visual or other data classification task purely by training on large labelled corpora. Nevertheless, many real-world applications require explanation why the classifier takes such a decision with regard to the taxonomy of target classes. This is why the frist works on “backtracing” of feature maps have been developed applied to image classification [1], [2],[3]. Later, the use of most prominent features in different layers of CNNs allowed to introduce the so-called “attention mechanisms” [4] which proceed by back propagation of prominent features re-inforcing input data relevant for final decision. A comparison of such mechanisms with visual saliency propagation built on the basis of measuring of human attention has been recently done in [5]. -In this PhD research in what concerns visual component we will tackle explanation of decisions of the designed classifiers wrt visual attention maps generated on the basis of gaze fixations and different back-tracing approaches on feature maps in convolutional layers. As far as time series are concerned, such a research has been recently conducted [6] for understanding which features during which time interval are re-sponsible for a given prediction, as well as explaining during which time intervals was the joint contribution of all features most important for that prediction. In the proposed research we are interested in explanations of decisions taken by DNN classifiers on heterogeneous data both time series from physiological and electro-dynamic sensors and visual component, i.e. video from cameras. For such a research multiple corpora are already available, including those produced by LABRI and available on CNRS server Nakala such as Grasping –in-the Wild, or LifeLog corpus available from DCU. As application domain we will target large projects of University of Bordeaux “AI – SPORT” and IT-Health with BPH.