Thèse soutenue

Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

FR  |  
EN
Auteur / Autrice : Adrien Brilhault
Direction : Christophe JouffraisSimon Thorpe
Type : Thèse de doctorat
Discipline(s) : Intelligence artificielle
Date : Soutenance en 2014
Etablissement(s) : Toulouse 3

Résumé

FR  |  
EN

La déficience visuelle touche aujourd'hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d'ici 2030 du fait du vieillissement de la population. De par la diversité de ses causes, le nombre de personnes atteintes, et ses conséquences sur la qualité de vie, cette affection fait partie des problèmes de santé d'importance majeure. Les deux grandes approches holistiques pour compenser la perte ou l'absence de vision sont les systèmes de substitution sensorielle, restituant l'information visuelle par l'intermédiaire d'une autre modalité sensorielle (généralement l'audition ou le toucher), et les neuroprothèses visuelles. Ces dernières reproduisent à la surface du relais visuel implanté les images acquises par une caméra, en respectant leur configuration spatiale, un pixel correspondant à une électrode. Malheureusement, les neuroprothèses actuelles souffrent encore d'une perte de résolution trop importante, puisqu'une image ne sera restituée que par une matrice de quelques dizaines de points, rendant ces systèmes inadaptés à une utilisation au quotidien. Ces limitations sont de même nature dans le cas des dispositifs de substitution sensorielle : la quantité d'informations visuelles nécessaire à l'interprétation d'une scène naturelle est bien trop importante par rapport à la résolution de l'interface de restitution (auditive, tactile, ou par micro-stimulation). Ces systèmes se montrent par conséquent inefficaces dans des environnements visuels complexes, et ils ne sont donc qu'extrêmement peu utilisés en dehors des laboratoires de recherches. Ce constat nous a conduits à proposer dans cette thèse une approche alternative, consistant en un système de suppléance intégrant des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Grâce à la reconnaissance de formes en temps réel et à la synthèse de sons spatialisés, ce système permet de restaurer des boucles visuomotrices qui rendent à nouveau possibles certaines fonctions visuelles comme la localisation et la préhension d'objets. La navigation étant une autre tâche critique pour les non-voyants, nous avons également incorporé au dispositif des fonctions de guidage basées sur le positionnement par satellites et sur un système d'information géographique adapté. La trop faible précision de localisation du GPS nous a amenés à développer une nouvelle méthode de positionnement hybride, combinant les données satellites et inertielles à la reconnaissance de cibles visuelles géolocalisées. L'utilisation de la vision artificielle a ainsi permis d'améliorer les performances de localisation et d'obtenir une erreur moyenne généralement inférieure à 5 mètres, rendant possible le guidage et la navigation d'un piéton non-voyant. Afin d'améliorer les performances du module de vision artificielle, constituant le cœur du système, nous avons développé et évalué un nouvel algorithme de reconnaissance de formes bio-inspiré multi-résolutions, reposant sur la librairie Spikenet. Celle-ci utilise un codage de l'information visuelle par latence, et des représentations sous forme d'arêtes orientées, telles que celles observées dans le cortex visuel primaire. Par rapport à l'algorithme originel mono-échelle, cette architecture permet de capturer un spectre de fréquences spatiales plus large. Les traitements à faible résolution permettent ainsi d'améliorer la tolérance aux déformations de l'image, alors que les hautes fréquences spatiales, plus discriminantes, maintiennent une précision suffisamment élevée. De par son fonctionnement en plusieurs passes successives, cette nouvelle architecture permet de plus de diminuer les temps de traitement grâce à une première couche rapide, filtrant les objets à rechercher dans la phase suivante à haute résolution, plus coûteuse en temps de calcul.