赞
踩
无监督立体匹配因摆脱视差标签的限制而广受关注,而多数无监督立体匹配算法都基于左右视图具有一致的视觉属性的前提,当该前提不成立时模型可能会坍塌。在本文中,作者提出一种空间自适应的自相似(SASS)用于无监督非对称的立体匹配。该方法通过扩展自相似来自适应生成对非对称鲁棒的深度特征。为了学习到有效的采样模式,作者提出了一种带有正负权重的对比相似性损失,该损失进一步引导SASS生成对称性不敏感的特征,同时保持同名点特征之间的一致性与非同名点之间特征的特异性。在多个数据集上的实验结果表明该方法可以应对不同尺度与不同非对称的噪声条件。
模型的结构如图2所示,给定左右输入图像
I
L
,
I
R
∈
R
H
×
W
×
C
\mathbf{I}_L,\mathbf{I}_R\in\mathbb{R}^{H\times W\times C}
IL,IR∈RH×W×C,对于每一个左视图中的像素
x
=
(
x
,
y
)
\mathbf{x}=(x,y)
x=(x,y),无监督方法一般使用重投影误差来计算损失:
L
p
m
=
κ
(
I
L
,
I
R
2
L
)
,
(1)
其中,
I
R
2
L
(
x
,
y
)
=
I
R
(
x
−
d
^
,
y
)
L
f
m
=
κ
(
G
L
,
G
R
2
L
)
,
(2)
\mathcal{L}_{fm}=\kappa(\mathbf{G}_L,\mathbf{G}_{R2L}),\tag{2}
Lfm=κ(GL,GR2L),(2)
其中
G
\mathbf{G}
G 为从编码器中得到的特征。基于这样的目的,作者旨在使用空间自适应自相似损失空间来计算无监督非对称立体匹配的特征之间的相似度损失。
模型主要包含一个特征编码器
{
Θ
L
E
,
Θ
R
E
}
\{\Theta_L^E,\Theta_R^E\}
{ΘLE,ΘRE}、一个代价构建模块和一个解码器。给定输入图像对
{
I
L
,
I
R
}
\{\mathbf{I}_L,\mathbf{I}_R\}
{IL,IR} 输入到编码器中得到左右视图对应的特征图
{
F
L
,
F
R
}
∈
R
H
e
×
W
e
×
C
e
不妨将像素点
x
\mathbf{x}
x 的自相似特征
G
(
x
)
\mathbf{G}(\mathbf{x})
G(x)定义为 L 个特征的联合,其中
G
(
x
)
=
⋃
l
G
l
(
x
)
\mathbf{G}(\mathbf{x})=\bigcup_lG^l(\mathbf{x})
G(x)=⋃lGl(x) 其中
l
∈
[
1
,
.
.
.
,
L
]
,
G
l
(
x
)
=
max
x
˙
∈
N
x
exp
(
−
S
(
P
(
x
˙
−
Δ
x
s
l
)
,
P
(
x
˙
−
Δ
x
t
l
)
)
γ
)
,
(3)
G^l(\mathbf{x})=\max_{\dot{\mathbf{x}}\in\mathcal{N}_\mathbf{x}}\exp(-\frac{\mathcal{S}(P(\dot{\mathbf{x}}-\Delta\mathbf{x}_{s_l}),P(\dot{\mathbf{x}}-\Delta\mathbf{x}_{t_l}))}\gamma),\tag{3}
Gl(x)=x˙∈Nxmaxexp(−γS(P(x˙−Δxsl),P(x˙−Δxtl))),(3)
其中
P
(
x
)
P(\mathbf{x})
P(x) 为以
x
\mathbf{x}
x 为中心点的块,
{
Δ
x
s
l
,
Δ
x
t
l
}
\{\Delta\mathbf{x}_{s_l},\Delta\mathbf{x}_{t_l}\}
{Δxsl,Δxtl} 为第
l
t
h
l^{th}
lth 个采样模式的坐标偏置。
S
\mathcal{S}
S 为相似度度量方式,这种相似度度量方式使用带有带宽为
γ
\gamma
γ 的指数函数进行编码,并在窗口
N
x
\mathcal{N}_\mathbf{x}
Nx 内取最大值,在之前的工作中,所有像素L个采样模式的邻域偏置
{
Δ
x
s
l
,
Δ
x
t
l
}
l
=
1
L
\{\Delta\mathbf{x}_{s_l},\Delta\mathbf{x}_{t_l}\}_{l=1}^L
{Δxsl,Δxtl}l=1L 是固定的,如图1(a)所示:
为了使得模型能适应不同区域的模式,作者引入一个偏置预测模块来预测每个中心点的自适应邻域的采样偏置
{
Δ
x
s
l
(
x
)
,
Δ
x
t
l
(
x
)
}
l
=
1
L
\{\Delta\mathbf{x}_{s_l}(\mathbf{x}),\Delta\mathbf{x}_{t_l}(\mathbf{x})\}_{l=1}^L
{Δxsl(x),Δxtl(x)}l=1L,如图1(b)所示。该模块以左视图的特征
F
l
\mathbf{F}_l
Fl 为输入,输出为每个点的邻域的采样偏置
{
O
l
}
l
=
1
L
\{\mathbf{O}^l\}_{l=1}^L
{Ol}l=1L,对于第
l
t
h
l^{th}
lth 采样模式有
O
l
∈
R
H
e
×
W
e
×
4
\mathbf{O}^l\in\mathbb{R}^{H_e\times W_e\times4}
Ol∈RHe×We×4,前面两个通道分别表示
Δ
x
s
l
(
x
)
\Delta\mathbf{x}_{s_l}\left(\mathbf{x}\right)
Δxsl(x) 竖直和水平方向的坐标偏置,后面两个通道分别代表
Δ
x
t
l
(
x
)
\Delta\mathbf{x}_{t_l}\left(\mathbf{x}\right)
Δxtl(x) 竖直和水平方向的坐标偏置。最后,通过
P
(
x
)
=
F
(
x
)
P(\mathbf{x})=\mathbf{F}(\mathbf{x})
P(x)=F(x) 来提取 SASS特征
G
=
⋃
l
G
l
∈
R
H
e
×
W
e
×
L
\mathbf{G}=\bigcup_lG^l\in\mathbb{R}^{H_e\times W_e\times L}
G=⋃lGl∈RHe×We×L, 其中:
G
l
(
x
)
=
max
x
˙
∈
N
x
exp
(
−
S
(
F
(
x
˙
−
Δ
x
s
l
(
x
)
)
,
F
(
x
˙
−
Δ
x
t
l
(
x
)
)
)
γ
)
.
(4)
G^l(\mathbf{x})=\max_{\dot{\mathbf{x}}\in\mathcal{N}_{\mathbf{x}}}\exp(-\frac{\mathcal{S}(\mathbf{F}(\dot{\mathbf{x}}-\Delta\mathbf{x}_{s_l}(\mathbf{x})),\mathbf{F}(\dot{\mathbf{x}}-\Delta\mathbf{x}_{t_l}(\mathbf{x})))}\gamma).\tag{4}
Gl(x)=x˙∈Nxmaxexp(−γS(F(x˙−Δxsl(x)),F(x˙−Δxtl(x)))).(4)
为了计算的简洁,使用简单的欧式举例来作为相似度计算函数,整个计算过程如图3所示:
特征度量损失需要在一个非对称性不敏感但匹配点具有区分性的特征空间上计算,为此,提出一个对比相似性损失来引导模型生成有效的空间自适应相似性采样模式。首先定义了一个正像素(正确的视差估计)与负像素(错误的视差估计),通过水平翻转和交换左右视图后送入视差估计模型得到视差,再翻转该视差结果,然后定义对应的误差为视差估计的绝对误差:
E
(
x
)
=
∣
D
^
L
(
x
)
−
D
^
R
(
x
~
)
∣
,
(5)
\mathcal{E}(\mathbf{x})=|\hat{\mathbf{D}}_L(\mathbf{x})-\hat{\mathbf{D}}_R(\tilde{\mathbf{x}})|,\tag{5}
E(x)=∣D^L(x)−D^R(x~)∣,(5)
其中
x
~
=
x
−
D
^
L
(
x
)
\tilde{\mathbf{x}}=\mathbf{x}-\hat{\mathbf{D}}_{L}(\mathbf{x})
x~=x−D^L(x) ,当
E
(
x
)
≤
τ
\mathcal{E}(\mathbf{x})\leq\tau
E(x)≤τ 时,该点的视差为正像素,否则为负像素。对比相似度损失定义为:
L
c
s
=
1
∣
Ω
p
∣
∑
x
∈
Ω
p
w
p
(
x
)
∣
∣
G
L
(
x
)
−
G
R
2
L
(
x
)
∣
∣
2
+
1
∣
Ω
n
∣
∑
x
∈
Ω
n
max
(
0
,
M
−
w
n
(
x
)
∣
∣
G
L
(
x
)
−
G
R
2
L
(
x
)
∣
∣
2
)
,
其中
∣
Ω
p
∣
,
∣
Ω
n
∣
|\Omega_p|, |\Omega_n|
∣Ωp∣,∣Ωn∣ 为正像素与负像素的数量,第一项鼓励模型从不对称的图像中提取到鲁棒的SASS特征,使得正确匹配点的特征相似度更高。相反,第二项约束模型在不匹配点生成的特征相似度要大于边界
M
M
M, 是的模型生成的SASS特征具有可区分性。此外,通过余弦相似度的正负项权重
w
p
,
w
n
w_p, w_n
wp,wn 对正像素与负像素加权。在正像素的点,
w
p
=
(
1
−
cos
(
F
L
,
F
R
2
L
)
)
/
2.
w_p=(1-\cos(\mathbf{F}_L,\mathbf{F}_{R2L}))/2.
wp=(1−cos(FL,FR2L))/2.,表示当视差预测正确时,同名点之间特征相似度不高时给予更高的权重,使得模型关注于难以优化的点。
w
n
=
(
1
+
cos
(
F
L
,
F
R
2
L
)
)
/
2.
w_n=(1+\cos(\mathbf{F}_L,\mathbf{F}_{R2L}))/2.
wn=(1+cos(FL,FR2L))/2. 表示视差预测错误时,同名点之间的相似度很高时候,给予更高的权重,是的模型关注于预测错误更多的点。
光度一致性损失:
L
p
m
=
(
1
−
α
p
m
)
∣
∣
I
L
−
I
R
2
L
∣
∣
1
+
α
p
m
(
1
−
S
S
I
M
(
I
L
,
I
R
2
L
)
)
,
(7)
特征度量损失:
L
f
m
=
(
1
−
α
f
m
)
∣
∣
G
L
−
G
R
2
L
∣
∣
1
+
α
f
m
(
1
−
S
S
I
M
(
G
L
,
G
R
2
L
)
)
,
(8)
其中
α
f
m
,
α
p
m
\alpha_{fm}, \alpha_{pm}
αfm,αpm 是两项的权重,此外,视差平滑损失为:
L
d
s
=
∣
∂
x
D
∣
e
−
∣
∂
x
I
L
∣
+
∣
∂
y
D
∣
e
−
∣
∂
y
I
L
∣
,
(9)
\mathcal{L}_{ds}=|\partial_x\mathbf{D}|e^{-|\partial_x\mathbf{I}_L|}+|\partial_y\mathbf{D}|e^{-|\partial_y\mathbf{I}_L|},\tag{9}
Lds=∣∂xD∣e−∣∂xIL∣+∣∂yD∣e−∣∂yIL∣,(9)
其中
∂
x
,
∂
y
\partial_x, \partial_y
∂x,∂y 为水平与竖直方向的梯度。总的损失函数为:
L
=
λ
p
m
L
p
m
+
λ
f
m
L
f
m
+
λ
c
s
L
c
s
+
λ
d
s
L
d
s
.
(10)
\mathcal{L}=\lambda_{pm}\mathcal{L}_{pm}+\lambda_{fm}\mathcal{L}_{fm}+\lambda_{cs}\mathcal{L}_{cs}+\lambda_{ds}\mathcal{L}_{ds}.\tag{10}
L=λpmLpm+λfmLfm+λcsLcs+λdsLds.(10)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。