Thèse soutenue

Un système Ingénieux de perception bio-inspiré basé sur les capacités auditives cognitives humaines

FR  |  
EN
Auteur / Autrice : Yu Su
Direction : Kurosh MadaniKe Zhang
Type : Thèse de doctorat
Discipline(s) : Signal, Image, Automatique
Date : Soutenance le 11/11/2019
Etablissement(s) : Paris Est en cotutelle avec Northwestern Polytechnical University (Chine)
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Images, Signaux et Systèmes Intelligents (Créteil) - Laboratoire Images- Signaux et Systèmes Intelligents / LISSI
Jury : Président / Présidente : Yikang Yang
Examinateurs / Examinatrices : Kurosh Madani, Ke Zhang, Владимир Головко, Ying Liu, Jingyu Wang
Rapporteurs / Rapporteuses : Владимир Головко

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Développer une machine capable d’une perception consciente de l’environnement dans lequel elle évolue, aux côtés et avec des humains, est l’un des objectifs de l'intelligence artificielle bio-inspirée (IAB). Les communautés des chercheurs en IA et en IAB admettent généralement que l’adjonction d’une capacité artificielle faisant émerger une sorte de « prise de conscience » ou un traitement « conscient » de l’information par une machine conduirait vers une technologie beaucoup plus puissante et plus avancée que celles basées sur l’AI conventionnelle.L'ouïe est l’un des principaux systèmes sensoriels du système cognitif humain. Les oreilles transforment la myriade de stimulus perçus de l’environnement ambiant en signaux (impulsions) nerveuses générées par différents types de cellules nerveuses et cela à tout moment, même lorsque nous nous endormons. En effet, avec et aux côtés de la vision (i.e. capacité visuelles), le système auditif constitue un sens fondamental de la perception chez l’humain. Motivé par l’importance du complément auditif chez l’humain dans la perception et la caractérisation par ce dernier de l’environnement dans lequel il évolue et compte tenu des limites actuelles pour la simulation du mécanisme cognitif auditive humain, l’objectif principal de ce travail doctoral est de fournir aux machines une capacité auditive cognitive artificielle dotant ces dernières d’une perception augmentée et adaptée de l'environnement à l’image de celle développée chez les humains. Pour atteindre cet objectif, tout d’abord, une étude des travaux de recherche les plus récents, couvrant les modèles d’attention auditive, les techniques de classification du son environnemental, celles basées sur l’apprentissage profond (deep-learning) et les mécanismes de réponse auditive humaine, a été effectuée permettant de mieux comprendre l’état actuel de l’art et la complexité de la réalisation des objectifs visés par le présent travail doctoral. Cette étude a mis en exergue les insuffisances inhérentes aux techniques existantes et a orienté nos investigations vers une modélisation des mécanismes bio-inspirés de la détection de la divergence auditive. Ces modèles ont été associés aux réseaux de neurones convolutionnels (CNN) pour catégoriser les sons détectés dans l’environnement en exploitant un système à base de connaissances. Ensuite, les travaux ont conduit à la mise en œuvre d’un modèle pour la détection de la déviance auditive en utilisant à la fois des caractéristiques temporelles et spatiales du son perçu (domaines temporel et spatial). Une approche d’extraction de ce type de caractéristiques a été proposée. Ainsi, les caractéristiques précitées contribuent à la détection de la déviance et de la saillance auditive dans chaque domaine (i.e. domaine temporel et domaine spatial) pour, ensuite être combinées afin de fiabiliser la détection et la catégorisation du son perçu de l'environnement réel (i.e. le résultat final). Les résultats expérimentaux montrent la viabilité du modèle proposé pour détecter des sons saillants déviants dans un clip sonore ainsi que la robustesse et une précision des modèles proposés. Finalement, les travaux ont conduit à la mise au point d’un modèle puissant de détection et caractérisation des sons environnementaux, issu d’une fusion de deux CNN à 4 couches. Les deux types de caractéristiques acoustiques agrégées proposées et évaluées dans chapitre 4 ont servies pour entraîner chaque CNN séparément. La fusion s’effectue au niveau des valeurs « softmax » des deux modèles CNN. Des résultats expérimentaux ont révélés des performances exceptionnelles de détection et de classification d’événements sonores : 97,2% obtenu sur le jeu de données UrbanSound8K, soit 4,2% de plus que les méthodes les plus performantes dans le domaine.