Object viewpoint estimation in the wild - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2021

Object viewpoint estimation in the wild

L'estimation de point de vue de l'objet dans la nature

Résumé

The goal of this thesis is to develop deep-learning approaches for estimating the 3D pose (viewpoint) of an object pictured in an image in different situations: (i) the object location in the image and the exact 3D model of the corresponding object are known, (ii) both the object location and the class are predicted and an exemplar 3D model is provided for each object class, and (iii) no 3D model is used and object location is predicted without the object being classified into a specific category.The key contributions of this thesis are the following. First, we propose a deep- learning approach to category-free viewpoint estimation. This approach can estimate the pose of any object conditioned only on its 3D model, whether or not it is similar to the objects seen at training time. The proposed network contains distinct modules for image feature extraction, shape feature extraction and pose prediction. These modules can have different variants for different representations of 3D models, but remain trainable end-to-end. Second, to allow inferring without exact 3D object models, we develop a class-exemplar-based viewpoint estimation approach that learns to condition the viewpoint prediction on the corresponding class feature extracted from a few 3D models during training. This approach differs from the previous approach in the sense that we extract an exemplar feature for each class instead of treating them independently for each object. We show that the proposed approach is robust against the precision of the provided 3D models and that can be adapted quickly to novel classes with using a few labeled examples. Third, we define a simple yet effective unifying framework that tackles both few-shot object detection and few- shot viewpoint estimation. We exploit, in a meta-learning setting, task-specific class information present in existing datasets, such as images with bounding boxes for object detection and exemplar 3D models of different classes for viewpoint estimation. And we propose a joint evaluation of object detection and viewpoint estimation in the few-shot regime. Finally, we develop a class-agnostic object viewpoint estimation approach that estimates the viewpoint directly from an image embedding, where the embedding space is optimized for object pose estimation through a geometry-aware contrastive learning. Rather than blindly pulling together features of the same object in different augmented views and pushing apart features of different objects while ignoring the pose difference between them, we propose a pose-aware contrastive loss that pushes away the image features of objects having different poses, ignoring the class of these objects. By sharing the network weights across all categories during training, we obtain a class-agnostic viewpoint estimation network that can work on objects of any category. Our method achieve state-of-the-art results in the Pascal3D+, ObjectNet3D and Pix3D category-level object pose estimation benchmarks, under both intra-dataset and inter-dataset settings.
Le but de cette thèse est de développer des approches d’apprentissage profond pour estimer la pose 3D (point de vue) d’un objet représenté dans une image dans différentes situations: (i) la localisation de l’objet dans l’image et le modèle 3D exact de l’objet correspondant sont connus, (ii) la localisation et la classe d’objet sont prédits et un exemplaire de modèle 3D est fourni pour chaque classe d’objets, et (iii) les modèles 3D ne sont pas pris en compte et seul la localisation de l’objet est prédite sans que l’objet soit classé dans une catégorie spécifique. Les principales contributions de cette thèse sont les suivantes. Tout d’abord, nous proposons une approche d’apprentissage profond pour l’estimation du point de vue sans catégorie. Cette approche permet d’estimer la pose de tout objets conditionné uniquement sur son modèle 3D, qu’il soit similaire ou non aux objets vus au moment de l’apprentissage. Le réseau proposé contient des modules distincts pour l’extraction de caractéristiques d’image, l’extraction de caractéristiques de forme et la prédiction de pose. Ces modules peuvent avoir différentes variantes pour différentes représentations de modèles 3D, mais s’intègrent dans une architecture entraînable de bout en bout. Deuxièmement, pour permettre l’inférence sans modèle d’objet 3D exact, nous développons une approche d’estimation du point de vue basée sur des exemples de classe qui apprend à conditionner la prédiction du point de vue à des caractéristiques de la classe correspondante extraite de quelques modèles 3D pendant l’entraînement. Cette approche diffère de l’approche précédente en ce sens que nous extrayons des caractéristiques générales pour chaque classe au lieu de les traiter indépendamment pour chaque objet. Nous montrons que l’approche proposée est robuste par rapport à la précision des modèles 3D fournis et qu’elle peut être adaptée rapidement à de nouvelles classes avec seulement quelques exemples étiquetés. Troisièmement, nous définissons un cadre simple mais efficace qui traîte à la fois la détection d’objets et l’estimation du point de vue à partir de seulement un petit nombre d’images d’apprentissage. Nous exploitons, dans un contexte de méta-apprentissage, des informations de classe spécifiques aux tâches et présentes dans des bases de données existants, telles que des images avec des boîtes 2D pour la détection d’objets et des exemplaires de modèle 3D de différentes classes pour l’estimation du point de vue. De plus, nous proposons une évaluation conjointe de la détection d’objets et de l’estimation du point de vue pour le cas d’un très petit jeu de données d’apprentissage. Enfin, nous développons une approche d’estimation du point de vue d’objet indépendante de la classe qui estime le point de vue directement à partir d’une représentation de l’image, où l’espace de représentations est optimisé pour l’estimation de la pose d’objet grâce à un apprentissage contrastif sensible à la géométrie. Plutôt que de rassembler aveuglément les représentations d’un même objet dans différentes vues augmentées et d’écarter les représentations d’objets différents tout en ignorant la différence de pose entre eux, nous proposons une fonction de perte contrastive sensible à la pose qui éloignent entre elles les représentations d’objets ayant des poses différentes, ignorant la classe de ces objets. En partageant les poids du réseau entre toutes les catégories pendant l’entraînement, nous obtenons un réseau d’estimation de point de vue indépendant de la classe qui peut fonctionner sur des objets de n’importe quelle catégorie. Notre méthode obtient des résultats à l’état de l’art pour l’estimation de pose 3D dans les benchmarks Pascal3D+, ObjectNet3D et Pix3D, à la fois pour chaque jeu de données indépendamment et entre jeux de données (en entraînant sur l’un et en testant sur l’autre).
Fichier principal
Vignette du fichier
TH2021ENPC0021.pdf (59.69 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03541699 , version 1 (24-01-2022)

Identifiants

  • HAL Id : tel-03541699 , version 1

Citer

Yang Xiao. Object viewpoint estimation in the wild. Computer Vision and Pattern Recognition [cs.CV]. École des Ponts ParisTech, 2021. English. ⟨NNT : 2021ENPC0021⟩. ⟨tel-03541699⟩
143 Consultations
18 Téléchargements

Partager

Gmail Facebook X LinkedIn More