Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

par Adrien Brilhault

Thèse de doctorat en Intelligence artificielle

Sous la direction de Christophe Jouffrais et de Simon Thorpe.

Soutenue en 2014

à Toulouse 3 .


  • Résumé

    La déficience visuelle touche aujourd'hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d'ici 2030 du fait du vieillissement de la population. De par la diversité de ses causes, le nombre de personnes atteintes, et ses conséquences sur la qualité de vie, cette affection fait partie des problèmes de santé d'importance majeure. Les deux grandes approches holistiques pour compenser la perte ou l'absence de vision sont les systèmes de substitution sensorielle, restituant l'information visuelle par l'intermédiaire d'une autre modalité sensorielle (généralement l'audition ou le toucher), et les neuroprothèses visuelles. Ces dernières reproduisent à la surface du relais visuel implanté les images acquises par une caméra, en respectant leur configuration spatiale, un pixel correspondant à une électrode. Malheureusement, les neuroprothèses actuelles souffrent encore d'une perte de résolution trop importante, puisqu'une image ne sera restituée que par une matrice de quelques dizaines de points, rendant ces systèmes inadaptés à une utilisation au quotidien. Ces limitations sont de même nature dans le cas des dispositifs de substitution sensorielle : la quantité d'informations visuelles nécessaire à l'interprétation d'une scène naturelle est bien trop importante par rapport à la résolution de l'interface de restitution (auditive, tactile, ou par micro-stimulation). Ces systèmes se montrent par conséquent inefficaces dans des environnements visuels complexes, et ils ne sont donc qu'extrêmement peu utilisés en dehors des laboratoires de recherches. Ce constat nous a conduits à proposer dans cette thèse une approche alternative, consistant en un système de suppléance intégrant des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Grâce à la reconnaissance de formes en temps réel et à la synthèse de sons spatialisés, ce système permet de restaurer des boucles visuomotrices qui rendent à nouveau possibles certaines fonctions visuelles comme la localisation et la préhension d'objets. La navigation étant une autre tâche critique pour les non-voyants, nous avons également incorporé au dispositif des fonctions de guidage basées sur le positionnement par satellites et sur un système d'information géographique adapté. La trop faible précision de localisation du GPS nous a amenés à développer une nouvelle méthode de positionnement hybride, combinant les données satellites et inertielles à la reconnaissance de cibles visuelles géolocalisées. L'utilisation de la vision artificielle a ainsi permis d'améliorer les performances de localisation et d'obtenir une erreur moyenne généralement inférieure à 5 mètres, rendant possible le guidage et la navigation d'un piéton non-voyant. Afin d'améliorer les performances du module de vision artificielle, constituant le cœur du système, nous avons développé et évalué un nouvel algorithme de reconnaissance de formes bio-inspiré multi-résolutions, reposant sur la librairie Spikenet. Celle-ci utilise un codage de l'information visuelle par latence, et des représentations sous forme d'arêtes orientées, telles que celles observées dans le cortex visuel primaire. Par rapport à l'algorithme originel mono-échelle, cette architecture permet de capturer un spectre de fréquences spatiales plus large. Les traitements à faible résolution permettent ainsi d'améliorer la tolérance aux déformations de l'image, alors que les hautes fréquences spatiales, plus discriminantes, maintiennent une précision suffisamment élevée. De par son fonctionnement en plusieurs passes successives, cette nouvelle architecture permet de plus de diminuer les temps de traitement grâce à une première couche rapide, filtrant les objets à rechercher dans la phase suivante à haute résolution, plus coûteuse en temps de calcul.

  • Titre traduit

    Artificial vision for the blind : a bio-inspired aproach for object recognition


  • Résumé

    More than 315 million people worldwide suffer from visual impairments, with several studies suggesting that this number will double by 2030 due to the ageing of the population. Given the variety of its causes, the volume of people affected, and its consequences on quality of life, visual impairment constitutes a major current health issue. To compensate for the loss of sight, the two main holistic approaches consist of sensorial substitution and neuroprosthetics. Sensorial substitution devices provide visual information through different sensory modalities (i. E. Audition or touch). Neuroprostheses reproduce images acquired by a video camera at the surface of the visual structure implanted (retina, LGN, or visual cortex), respecting their spatial configuration: each electrode corresponds to a given pixel. Unfortunately, current implants still suffer from very low resolution: each image is transmitted via a matrix of only a few dozen electrodes, rendering these systems unsuitable for everyday use. Sensory substitution devices are subject to the same limitations: the amount of information needed to process a natural visual scene is far too important in relation to the output interface resolutions (both auditive and tactile, or through microstimulation). Thus the current holistic systems at present are unable to provide sufficient aid in navigating complex visual environments, and are rarely implemented outside the context of laboratory research. To overcome these obstacles, we propose the use of artificial vision in order to pre-process visual scenes and provide the user with relevant information. We have validated this approach through the development of a novel assistive device for the blind called 'Navig'. Through shape recognition and spatialized sounds synthesis, this system is able to restore visuomotor loops, allowing users to locate and grab objects of interest. With navigation being one of the most challenging tasks for the visually impaired, we also developed guidance features relying on satellite positioning as well as an adapted geographic information system. Given that GPS accuracy in urban areas remains too low to safely guide blind pedestrians, we developed a new positioning method combining GNSS, inertial sensors and the visual detection of geolocalized landmarks. The use of artificial vision succeeded in reducing the average positioning error, and as a result provides accurate navigational markers to guide visually impaired users. To enhance the performance of the visual module, a key component of the system, we further developed a novel bio-inspired multi-resolution algorithm for pattern recognition based on the Spikenet library. It uses latency-based coding of visual information, oriented edge representations and several other mechanisms which essentially mimick the activations of the primary visual cortex. Compared to the original monoscale algorithm, our new architecture captures a far broader spectrum of spatial frequencies. Low-resolution processing allows for improved tolerance to image degradations and deformations, while higher and more discriminative frequencies maintain optimal selectivity. Through our cascaded scheme, combining detections at different resolutions, we significantly reduced processing time. Indeed, a first pass is used to filter objects of interest, and only a few candidates are then tested at a higher resolution.

Autre version

Cette thèse a donné lieu à une publication en 2015 par [CCSD] [diffusion/distribution] à Villeurbanne

Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (319 p.)
  • Annexes : Bibliogr. p. 262-296. Annexes

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2014 TOU3 0262
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.