Localisation temps-réel d'un robot par vision monoculaire et fusion multicapteurs

par Baptiste Charmette

Thèse de doctorat en Vision pour la Robotique

Sous la direction de Frédéric Chausse.

Soutenue le 14-12-2012

à Clermont-Ferrand 2 , dans le cadre de École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) , en partenariat avec Institut Pascal (Aubière, Puy-de-Dôme) (équipe de recherche) et de Institut Pascal (laboratoire) .

Le président du jury était Michel Dhome.

Le jury était composé de François Chaumette, Patrick Rives, Eric Royer, Sylvie Treuillet.

Les rapporteurs étaient François Chaumette, Patrick Rives.


  • Résumé

    Ce mémoire présente un système de localisation par vision pour un robot mobile circulant dans un milieu urbain. Pour cela, une première phase d’apprentissage où le robot est conduit manuellement est réalisée pour enregistrer une séquence vidéo. Les images ainsi acquises sont ensuite utilisées dans une phase hors ligne pour construire une carte 3D de l’environnement. Par la suite, le véhicule peut se déplacer dans la zone, de manière autonome ou non, et l’image reçue par la caméra permet de le positionner dans la carte. Contrairement aux travaux précédents, la trajectoire suivie peut être différente de la trajectoire d’apprentissage. L’algorithme développé permet en effet de conserver la localisation malgré des changements de point de vue importants par rapport aux images acquises initialement. Le principe consiste à modéliser les points de repère sous forme de facettes localement planes, surnommées patchs plan, dont l’orientation est connue. Lorsque le véhicule se déplace, une prédiction de la position courante est réalisée et la déformation des facettes induite par le changement de point de vue est reproduite. De cette façon la recherche des amers revient à comparer des images pratiquement identiques, facilitant ainsi leur appariement. Lorsque les positions sur l’image de plusieurs amers sont connues, la connaissance de leur position 3D permet de déduire la position du robot. La transformation de ces patchs plan est complexe et demande un temps de calcul important, incompatible avec une utilisation temps-réel. Pour améliorer les performances de l’algorithme, la localisation a été implémentée sur une architecture GPU offrant de nombreux outils permettant d’utiliser cet algorithme avec des performances utilisables en temps-réel. Afin de prédire la position du robot de manière aussi précise que possible, un modèle de mouvement du robot a été mis en place. Il utilise, en plus de la caméra, les informations provenant des capteurs odométriques. Cela permet d’améliorer la prédiction et les expérimentations montrent que cela fournit une plus grande robustesse en cas de pertes d’images lors du traitement. Pour finir ce mémoire détaille les différentes performances de ce système à travers plusieurs expérimentations en conditions réelles. La précision de la position a été mesurée en comparant la localisation avec une référence enregistrée par un GPS différentiel.

  • Titre traduit

    Real-time robot location by monocular vision and multi-sensor fusion


  • Résumé

    This dissertation presents a vision-based localization system for a mobile robot in an urban context. In this goal, the robot is first manually driven to record a learning image sequence. These images are then processed in an off-line way to build a 3D map of the area. Then vehicle can be —either automatically or manually— driven in the area and images seen by the camera are used to compute the position in the map. In contrast to previous works, the trajectory can be different from the learning sequence. The algorithm is indeed able to keep localization in spite of important viewpoint changes from the learning images. To do that, the features are modeled as locally planar features —named patches— whose orientation is known. While the vehicle is moving, its position is predicted and patches are warped to model the viewpoint change. In this way, matching the patches with points in the image is eased because their appearances are almost the same. After the matching, 3D positions of the patches associated with 2D points on the image are used to compute robot position. The warp of the patch is computationally expensive. To achieve real-time performance, the algorithm has been implemented on GPU architecture and many improvements have been done using tools provided by the GPU. In order to have a pose prediction as precise as possible, a motion model of the robot has been developed. This model uses, in addition to the vision-based localization, information acquired from odometric sensors. Experiments using this prediction model show that the system is more robust especially in case of image loss. Finally many experiments in real situations are described in the end of this dissertation. A differential GPS is used to evaluate the localization result of the algorithm.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Clermont Auvergne. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.