Un système Ingénieux de perception bio-inspiré basé sur les capacités auditives cognitives humaines

par Yu Su

Thèse de doctorat en Signal, Image, Automatique

Sous la direction de Kurosh Madani.

Thèses en préparation à Paris Est en cotutelle avec Northwestern Polytechnical University (NPU) , dans le cadre de MSTIC : Mathématiques et Sciences et Technologies de l'Information et de la Communication , en partenariat avec LISSI - Laboratoire Images, Signaux et Systèmes Intelligents (laboratoire) .


  • Résumé

    Développer une machine capable d'une perception consciente de l'environnement dans lequel elle évolue, aux côtés et avec des humains, est l'un des objectifs de l'intelligence artificielle bio-inspirée (IAB). Les communautés des chercheurs en IA et en IAB admettent généralement que l'adjonction d'une capacité artificielle faisant émerger une sorte de « prise de conscience » ou un traitement « conscient » de l'information par une machine conduirait vers une technologie beaucoup plus puissante et plus avancée que celles basées sur l'AI conventionnelle. L'ouïe est l'un des principaux systèmes sensoriels du système cognitif humain. Les oreilles transforment la myriade de stimulus perçus de l'environnement ambiant en signaux (impulsions) nerveuses générées par différents types de cellules nerveuses et cela à tout moment, même lorsque nous nous endormons. En effet, avec et aux côtés de la vision (i.e. capacité visuelles), le système auditif constitue un sens fondamental de la perception chez l'humain. Motivé par l'importance du complément auditif chez l'humain dans la perception et la caractérisation par ce dernier de l'environnement dans lequel il évolue et compte tenu des limites actuelles pour la simulation du mécanisme cognitif auditive humain, l'objectif principal de ce travail doctoral est de fournir aux machines une capacité auditive cognitive artificielle dotant ces dernières d'une perception augmentée et adaptée de l'environnement à l'image de celle développée chez les humains. Pour atteindre cet objectif, tout d'abord, une étude des travaux de recherche les plus récents, couvrant les modèles d'attention auditive, les techniques de classification du son environnemental, celles basées sur l'apprentissage profond (deep-learning) et les mécanismes de réponse auditive humaine, a été effectuée permettant de mieux comprendre l'état actuel de l'art et la complexité de la réalisation des objectifs visés par le présent travail doctoral. Cette étude a mis en exergue les insuffisances inhérentes aux techniques existantes et a orienté nos investigations vers une modélisation des mécanismes bio-inspirés de la détection de la divergence auditive. Ces modèles ont été associés aux réseaux de neurones convolutionnels (CNN) pour catégoriser les sons détectés dans l'environnement en exploitant un système à base de connaissances. Ensuite, les travaux ont conduit à la mise en œuvre d'un modèle pour la détection de la déviance auditive en utilisant à la fois des caractéristiques temporelles et spatiales du son perçu (domaines temporel et spatial). Une approche d'extraction de ce type de caractéristiques a été proposée. Ainsi, les caractéristiques précitées contribuent à la détection de la déviance et de la saillance auditive dans chaque domaine (i.e. domaine temporel et domaine spatial) pour, ensuite être combinées afin de fiabiliser la détection et la catégorisation du son perçu de l'environnement réel (i.e. le résultat final). Les résultats expérimentaux montrent la viabilité du modèle proposé pour détecter des sons saillants déviants dans un clip sonore ainsi que la robustesse et une précision des modèles proposés. Finalement, les travaux ont conduit à la mise au point d'un modèle puissant de détection et caractérisation des sons environnementaux, issu d'une fusion de deux CNN à 4 couches. Les deux types de caractéristiques acoustiques agrégées proposées et évaluées dans chapitre 4 ont servies pour entraîner chaque CNN séparément. La fusion s'effectue au niveau des valeurs « softmax » des deux modèles CNN. Des résultats expérimentaux ont révélés des performances exceptionnelles de détection et de classification d'événements sonores : 97,2% obtenu sur le jeu de données UrbanSound8K, soit 4,2% de plus que les méthodes les plus performantes dans le domaine.

  • Titre traduit

    A bio-inspired smart perception system based on human's cognitive auditory skills


  • Résumé

    Developing a machine capable of a conscious perception of the environment in which it evolves, alongside and with humans, is one of the objectives of bio-inspired artificial intelligence (BAI). AI and BAI research communities generally recognize that the addition of an artificial ability to emerge a kind of "awareness" or "conscious" processing of information by a machine would lead to much more powerful technology. and more advanced than those based on conventional AI. Hearing is one of the main sensory systems of the human cognitive system. The ears transform the myriad of perceived stimuli of the surrounding environment into nerve impulses generated by different types of nerve cells at any time, even when we fall asleep. Indeed, with and alongside vision (i.e. visual ability), the auditory system constitutes a fundamental sense of perception in humans. Motivated by the importance of the auditory complement in humans in the perception and characterization by the latter of the environment in which it evolves and taking into account the current limits for the simulation of the human auditory cognitive mechanism, the main objective of this Doctoral work is to provide the machines with an artificial cognitive hearing capacity giving the latter an increased and adapted perception of the environment to the image of that developed in humans. To achieve this goal, first of all, a study of the most recent research works, covering models of auditory attention, techniques of classification of the environmental sound, those based on deep learning (deep-learning) and mechanisms of human auditory response, was conducted to better understand the current state of the art and the complexity of achieving the objectives of this doctoral work. This study highlighted the shortcomings inherent in existing techniques and guided our investigations towards modeling the bio-inspired mechanisms of auditory divergence detection. These models have been associated with convolutional neural networks (CNNs) to categorize sounds detected in the environment by exploiting a knowledge-based system. Then, the work led to the implementation of a model for the detection of auditory deviance using both temporal and spatial characteristics of the perceived sound (temporal and spatial domains). An extraction approach of this type of characteristics has been proposed. Thus, the above-mentioned features contribute to the detection of auditory deviance and auditory saliency in each domain (ie time domain and spatial domain) to then be combined in order to make reliable the detection and categorization of the perceived sound of the real environment ( ie the final result). The experimental results show the viability of the proposed model for detecting deviant salient sounds in a sound clip as well as the robustness and accuracy of the proposed models. Finalement, les travaux ont conduit à la mise au point d'un modèle puissant de détection et caractérisation des sons environnementaux, issu d'une fusion de deux CNN à 4 couches. Les deux types de caractéristiques acoustiques agrégées proposées et évaluées dans chapitre 4 ont servies pour entraîner chaque CNN séparément. La fusion s'effectue au niveau des valeurs « softmax » des deux modèles CNN. Des résultats expérimentaux ont révélés des performances exceptionnelles de détection et de classification d'événements sonores : 97,2% obtenu sur le jeu de données UrbanSound8K, soit 4,2% de plus que les méthodes les plus performantes dans le domaine.