赞
踩
提出了一种新颖的方法,来学习用于2D图像和3D点云匹配的,局部跨域描述符
主要贡献
一种新颖的学习型跨域描述符(LCD),使用双自编码器体系结构和三元损失来学习的设置,会强制2D和3D自编码器在共享的潜在空间表示中学习跨域描述符。
一个约140万个2D-3D对应的新的公共数据集,用于训练和评估跨域描述符匹配。基于SceneNN和3DMatch构建了数据集。
验证的跨域描述符的鲁棒性的应用。将描述符用于解决单独的2D(图像匹配)和单独的3D任务(3D配准),然后再应用于2D-3D内容检索任务(2D-3D位置识别)。实验结果表明,即使不是为特定任务量身定制的描述符的描述符在所有任务中的性能也可以与其他最新方法相媲美。
I ∈R^(W×H×3)表示:尺寸为WxH
的,彩色图像块
P ∈R^(N×6)表示:有N个点的彩色点云,每个点由其3D世界坐标和RGB值表示。
目的
提出了: 一种新颖的双自编码器架构,来学习描述符
2D自编码器
3D分支
重建彩色点云
为了实现共享表示
两个自编码器,通过优化三元损失,将的bottlenecks捆绑在一起
最终的训练损失,包括如下:
光度损失:2D自编码器的损失,由光度损失定义,光度损失是输入2D图像块与重构色块之间的均方误差
L m s e = 1 W × H ∑ i = 1 W × H ∥ I i − I ‾ i ∥ 2 L _ { m s e } = \frac { 1 } { W \times H } \sum _ { i = 1 } ^ { W \times H } \| I _ { i } - \overline { I } _ { i } \| ^ { 2 } Lmse=W×H1∑i=1W×H∥Ii−Ii∥2
倒角损失:为了优化3D自编码器网络,需要计算输入点集和重构点集之间的距离。通过倒角距离测量该距离
L
chamfer
=
max
{
1
∣
P
∣
∑
p
∈
P
min
q
∈
P
∥
p
−
q
∥
2
,
1
∣
P
‾
∣
∑
q
∈
P
‾
min
p
∈
P
∥
p
−
q
∥
2
}
\left. L chamfer =max{1|P|∑p∈Pminq∈P‖p−q‖2,1|¯P|∑q∈¯Pminp∈P‖p−q‖2}
三元损失:为了在由2D和3D分支,生成的嵌入中实现相似性,即2D图像块及其对应的3D结构,应具有相似的嵌入,采用三元损失函数。
损失最小化锚点和正样本之间的距离,最大化锚点和负样本之间的距离。
L triplet = max ( F ( d a , d p ) − F ( d a , d n ) + m , 0 ) L _ { \text { triplet } } = \max ( F ( d _ { a } , d _ { p } ) - F ( d _ { a } , d _ { n } ) + m , 0 ) L triplet =max(F(da,dp)−F(da,dn)+m,0)
总的损失函数:
L = α ⋅ L m s e + β ⋅ L chamfer + γ ⋅ L triplet L = \alpha \cdot L _ { m s e } + \beta \cdot L _ { \text { chamfer } } + \gamma \cdot L _ { \text { triplet } } L=α⋅Lmse+β⋅L chamfer +γ⋅L triplet
3DMatch
基准上的,3D配准结果。3DMatch
基准测试的定性结果。通过匹配局部3D描述符,提出的方法能够成功地在不同具有挑战性的场景中对齐片段对,而3DMatch (Zeng et al. 2017)在几何存在歧义的情况下失败。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。