【6Dof位姿估计】Multi-path Learning for Object Pose Estimation Across Domains论文理解

作者：很楠不爱3 | 2024-06-01 14:15:15

踩

multi-path learning for object pose estimation across domains

论文链接：arxiv

解决什么问题

无监督的6Dpose估计，即使没有没见过的物体也能处理

作者提出了一个Multi-path的编码器结构，包含一个编码器和多个解码器，这个编码器可以学习公共特征，让所有的实例共享一个latent空间，这个编码器以view敏感的方式编码那些在训练期间没见过的对象视图，然后解码器是针对每个不同实例进行处理的
这种方法是无监督的，不需要标注数据，只需要用3D model来合成数据训练就行了，可以通过排除扰动的方式来弥补真实数据和合成数据之间的差异

基于大量数据且特定实例，不灵活

AAE [ Implicit 3d orientation learning for 6d object detection from rgb images ] 2018 ，提取实例级的物体表达特征

在这里插入图片描述

分成两阶段，初始化和微调：

初始化：假定现在有A类物体的model，用A类的model来训练MP编码器并且生成codebook，codebook存放target姿态的图像编码，MP编码器的输出可以称之为“code”，将code和codebook中的target视图作比较，取相似度的cosine分数最高的target视图为结果，该物体的初步pose就取自这个target视图。
微调：交替优化，因为MP编码器有位移不变性，所以优化旋转起手

原理和优点：

功能：
解码器都是辅助编码器的，为了能让编码器学的好，之后就可以舍弃解码器，只留下编码器，这个方法能学习到交叉表达、共享特征

编码器算是个基础backbone，每种类别的东西都能学一点

结构：
由一个编码器 $z\in R^{128}$ ，还有n个解码器 $\Lambda_j$ 组成，其中 $j = 1, . . ., n$ ，n是不同的物体形状数量

z就是解码器和数据增强合二为一

输入和输出：
输入也做了增强，异类batch $B$ 包含多种物体；输出的编码是分开的，每个解码器只接受对应物体shape的code。

loss：
$L_m(B) = \sum^b_{j=1}\sum^n_{k=1}\Iota(s_j=k)||x_j - \Lambda_k(z_j)||_2$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/658029