Hybrid Machine Learning and Geometric Approaches for Single RGB Camera Relocalization

par Nam duong Duong

Thèse de doctorat en Signal, Image, Vision

Sous la direction de Pierre-Yves Richard.

Le président du jury était Guillaume Moreau.

Le jury était composé de Tomas Pajdla, Vincent Lepetit, Jérôme Royan, Catherine Soladié.

Les rapporteurs étaient Tomas Pajdla, Vincent Lepetit.

  • Titre traduit

    Approches Hybrides entre l’Apprentissage Automatique et la Géométrique pour la Relocalisation d'une Seule Caméra RVB


  • Résumé

    Au cours des dernières années, la relocalisation de la caméra à base d'images est devenue un enjeu important de la vision par ordinateur appliquée à la réalité augmentée, à la robotique ainsi qu'aux véhicules autonomes. La relocalisation de la caméra fait référence à la problématique de l'estimation de la pose de la caméra incluant à la fois la translation 3D et la rotation 3D. Dans les systèmes de localisation, le composant de relocalisation de la caméra est nécessaire pour récupérer la pose de la caméra après le suivi perdu, plutôt que de redémarrer la localisation à partir de zéro.Cette thèse vise à améliorer les performances de la relocalisation de la caméra en termes de temps d'exécution et de précision ainsi qu'à relever les défis de la relocalisation des caméras dans des environnements dynamiques.Nous présentons l'estimation de la pose de la caméra basée sur la combinaison de la régression de pose multi-patch pour surmonter l'incertitude des méthodes d'apprentissage profond de bout en bout. Afin d'équilibrer la précision et le temps de calcul de la relocalisation de la caméra à partir d'une seule image RVB, nous proposons une méthode hybride à caractéristiques éparses. Une meilleure prédiction dans la partie d’apprentissage automatique de nos méthodes conduit à une inférence rapide de la pose de la caméra dans la partie géométrique. Pour relever le défi des environnements dynamiques, nous proposons une forêt de régression adaptative qui s'adapte en temps réel au modèle prédictif. Il évolue en partie au fil du temps sans qu'il soit nécessaire de ré-entrainer le modèle entier à partir de zéro. En appliquant cet algorithme à notre relocalisation de la caméra en temps réel et précise, nous pouvons faire face à des environnements dynamiques, en particulier des objets en mouvement. Les expériences prouvent l'efficacité des méthodes que nous proposons. Notre méthode permet d'obtenir des résultats aussi précis que les meilleures méthodes d’état de l’art. De plus, nous obtenons également une grande précision même sur des scènes dynamiques.


  • Résumé

    In the last few years, image-based camera relocalization becomes an important issue of computer vision applied to augmented reality, robotics as well as autonomous vehicles. Camera relocalization refers to the problematic of the camera pose estimation including both 3D translation and 3D rotation. In localization systems, camera relocalization component is necessary to retrieve camera pose after tracking lost, rather than restarting the localization from scratch.This thesis aims at improving the performance of camera relocalization in terms of both runtime and accuracy as well as handling challenges of camera relocalization in dynamic environments. We present camera pose estimation based on combining multi-patch pose regression to overcome the uncertainty of end-to-end deep learning methods. To balance between accuracy and computational time of camera relocalization from a single RGB image, we propose a sparse feature hybrid methods. A better prediction in the machine learning part of our methods leads to a rapid inference of camera pose in the geometric part. To tackle the challenge of dynamic environments, we propose an adaptive regression forest algorithm that adapts itself in real time to predictive model. It evolves by part over time without requirement of re-training the whole model from scratch. When applying this algorithm to our real-time and accurate camera relocalization, we can cope with dynamic environments, especially moving objects. The experiments proves the efficiency of our proposed methods. Our method achieves results as accurate as the best state-of-the-art methods on the rigid scenes dataset. Moreover, we also obtain high accuracy even on the dynamic scenes dataset.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : CentraleSupélec. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.