当前位置:   article > 正文

论文阅读《Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-Similarity》

论文阅读《Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-Similarity》

论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Song_Unsupervised_Deep_Asymmetric_Stereo_Matching_With_Spatially-Adaptive_Self-Similarity_CVPR_2023_paper.html


概述

  无监督立体匹配因摆脱视差标签的限制而广受关注,而多数无监督立体匹配算法都基于左右视图具有一致的视觉属性的前提,当该前提不成立时模型可能会坍塌。在本文中,作者提出一种空间自适应的自相似(SASS)用于无监督非对称的立体匹配。该方法通过扩展自相似来自适应生成对非对称鲁棒的深度特征。为了学习到有效的采样模式,作者提出了一种带有正负权重的对比相似性损失,该损失进一步引导SASS生成对称性不敏感的特征,同时保持同名点特征之间的一致性与非同名点之间特征的特异性。在多个数据集上的实验结果表明该方法可以应对不同尺度与不同非对称的噪声条件。


模型架构

在这里插入图片描述
  模型的结构如图2所示,给定左右输入图像 I L , I R ∈ R H × W × C \mathbf{I}_L,\mathbf{I}_R\in\mathbb{R}^{H\times W\times C} IL,IRRH×W×C,对于每一个左视图中的像素 x = ( x , y ) \mathbf{x}=(x,y) x=(x,y),无监督方法一般使用重投影误差来计算损失:
L p m = κ ( I L , I R 2 L ) , (1)

Lpm=κ(IL,IR2L),
\tag{1} Lpm=κ(IL,IR2L),(1)
其中, I R 2 L ( x , y ) = I R ( x − d ^ , y )
IR2L(x,y)=IR(xd^,y)
IR2L(x,y)=IR(xd^,y)
为右视图根据所预测的视差图来warp到左视图的重投影图像。 κ \kappa κ 为差异度量函数,如 L 1 L1 L1 S S I M SSIM SSIM 结构一致性损失。当左右视图在视觉属性上不一致(亮度、分辨率、不同步噪声)时传统的光度一致性损失会遇到优化瓶颈,为此,有研究者提出在对称的特征损失空间计算光度一致性损失:
L f m = κ ( G L , G R 2 L ) , (2) \mathcal{L}_{fm}=\kappa(\mathbf{G}_L,\mathbf{G}_{R2L}),\tag{2} Lfm=κ(GL,GR2L),(2)
其中 G \mathbf{G} G 为从编码器中得到的特征。基于这样的目的,作者旨在使用空间自适应自相似损失空间来计算无监督非对称立体匹配的特征之间的相似度损失。
   模型主要包含一个特征编码器 { Θ L E , Θ R E } \{\Theta_L^E,\Theta_R^E\} {ΘLE,ΘRE}、一个代价构建模块和一个解码器。给定输入图像对 { I L , I R } \{\mathbf{I}_L,\mathbf{I}_R\} {IL,IR} 输入到编码器中得到左右视图对应的特征图 { F L , F R } ∈ R H e × W e × C e
{FL,FR}RHe×We×Ce
{FL,FR}RHe×We×Ce
。基于左右特征图构建代价体,然后送入解码器中获得左视图对应的视差图 D ^ L \hat{\mathbf{D}}_L D^L。使用公式1中来计算 I L , I R 2 L \mathbf{I}_L, \mathbf{I}_{R2L} IL,IR2L 的光度一致性损失,然后将 I L , I R 2 L \mathbf{I}_L, \mathbf{I}_{R2L} IL,IR2L 经过编码之后的非对称特征 G L , G R 2 L \mathbf{G}_L,\mathbf{G}_{R2L} GL,GR2L 送入 SASS模块计算特征度量损失。

Spatially-Adaptive Self-Similarity 空间自适应自相似模块

   不妨将像素点 x \mathbf{x} x 的自相似特征 G ( x ) \mathbf{G}(\mathbf{x}) G(x)定义为 L 个特征的联合,其中 G ( x ) = ⋃ l G l ( x ) \mathbf{G}(\mathbf{x})=\bigcup_lG^l(\mathbf{x}) G(x)=lGl(x) 其中 l ∈ [ 1 , . . . , L ] ,

l[1,...,L],
l[1,...,L],,且有:
G l ( x ) = max ⁡ x ˙ ∈ N x exp ⁡ ( − S ( P ( x ˙ − Δ x s l ) , P ( x ˙ − Δ x t l ) ) γ ) , (3) G^l(\mathbf{x})=\max_{\dot{\mathbf{x}}\in\mathcal{N}_\mathbf{x}}\exp(-\frac{\mathcal{S}(P(\dot{\mathbf{x}}-\Delta\mathbf{x}_{s_l}),P(\dot{\mathbf{x}}-\Delta\mathbf{x}_{t_l}))}\gamma),\tag{3} Gl(x)=x˙Nxmaxexp(γS(P(x˙Δxsl),P(x˙Δxtl))),(3)
其中 P ( x ) P(\mathbf{x}) P(x) 为以 x \mathbf{x} x 为中心点的块, { Δ x s l , Δ x t l } \{\Delta\mathbf{x}_{s_l},\Delta\mathbf{x}_{t_l}\} {Δxsl,Δxtl} 为第 l t h l^{th} lth 个采样模式的坐标偏置。 S \mathcal{S} S 为相似度度量方式,这种相似度度量方式使用带有带宽为 γ \gamma γ 的指数函数进行编码,并在窗口 N x \mathcal{N}_\mathbf{x} Nx 内取最大值,在之前的工作中,所有像素L个采样模式的邻域偏置 { Δ x s l , Δ x t l } l = 1 L \{\Delta\mathbf{x}_{s_l},\Delta\mathbf{x}_{t_l}\}_{l=1}^L {Δxsl,Δxtl}l=1L 是固定的,如图1(a)所示:

在这里插入图片描述
  为了使得模型能适应不同区域的模式,作者引入一个偏置预测模块来预测每个中心点的自适应邻域的采样偏置 { Δ x s l ( x ) , Δ x t l ( x ) } l = 1 L \{\Delta\mathbf{x}_{s_l}(\mathbf{x}),\Delta\mathbf{x}_{t_l}(\mathbf{x})\}_{l=1}^L {Δxsl(x),Δxtl(x)}l=1L,如图1(b)所示。该模块以左视图的特征 F l \mathbf{F}_l Fl 为输入,输出为每个点的邻域的采样偏置 { O l } l = 1 L \{\mathbf{O}^l\}_{l=1}^L {Ol}l=1L,对于第 l t h l^{th} lth 采样模式有 O l ∈ R H e × W e × 4 \mathbf{O}^l\in\mathbb{R}^{H_e\times W_e\times4} OlRHe×We×4,前面两个通道分别表示 Δ x s l ( x ) \Delta\mathbf{x}_{s_l}\left(\mathbf{x}\right) Δxsl(x) 竖直和水平方向的坐标偏置,后面两个通道分别代表 Δ x t l ( x ) \Delta\mathbf{x}_{t_l}\left(\mathbf{x}\right) Δxtl(x) 竖直和水平方向的坐标偏置。最后,通过 P ( x ) = F ( x ) P(\mathbf{x})=\mathbf{F}(\mathbf{x}) P(x)=F(x) 来提取 SASS特征 G = ⋃ l G l ∈ R H e × W e × L \mathbf{G}=\bigcup_lG^l\in\mathbb{R}^{H_e\times W_e\times L} G=lGlRHe×We×L, 其中:
G l ( x ) = max ⁡ x ˙ ∈ N x exp ⁡ ( − S ( F ( x ˙ − Δ x s l ( x ) ) , F ( x ˙ − Δ x t l ( x ) ) ) γ ) . (4) G^l(\mathbf{x})=\max_{\dot{\mathbf{x}}\in\mathcal{N}_{\mathbf{x}}}\exp(-\frac{\mathcal{S}(\mathbf{F}(\dot{\mathbf{x}}-\Delta\mathbf{x}_{s_l}(\mathbf{x})),\mathbf{F}(\dot{\mathbf{x}}-\Delta\mathbf{x}_{t_l}(\mathbf{x})))}\gamma).\tag{4} Gl(x)=x˙Nxmaxexp(γS(F(x˙Δxsl(x)),F(x˙Δxtl(x)))).(4)
为了计算的简洁,使用简单的欧式举例来作为相似度计算函数,整个计算过程如图3所示:
在这里插入图片描述

Contrastive Similarity Loss 对比相似度损失

   特征度量损失需要在一个非对称性不敏感但匹配点具有区分性的特征空间上计算,为此,提出一个对比相似性损失来引导模型生成有效的空间自适应相似性采样模式。首先定义了一个正像素(正确的视差估计)与负像素(错误的视差估计),通过水平翻转和交换左右视图后送入视差估计模型得到视差,再翻转该视差结果,然后定义对应的误差为视差估计的绝对误差:
E ( x ) = ∣ D ^ L ( x ) − D ^ R ( x ~ ) ∣ , (5) \mathcal{E}(\mathbf{x})=|\hat{\mathbf{D}}_L(\mathbf{x})-\hat{\mathbf{D}}_R(\tilde{\mathbf{x}})|,\tag{5} E(x)=D^L(x)D^R(x~),(5)
其中 x ~ = x − D ^ L ( x ) \tilde{\mathbf{x}}=\mathbf{x}-\hat{\mathbf{D}}_{L}(\mathbf{x}) x~=xD^L(x) ,当 E ( x ) ≤ τ \mathcal{E}(\mathbf{x})\leq\tau E(x)τ 时,该点的视差为正像素,否则为负像素。对比相似度损失定义为:
L c s = 1 ∣ Ω p ∣ ∑ x ∈ Ω p w p ( x ) ∣ ∣ G L ( x ) − G R 2 L ( x ) ∣ ∣ 2 + 1 ∣ Ω n ∣ ∑ x ∈ Ω n max ⁡ ( 0 , M − w n ( x ) ∣ ∣ G L ( x ) − G R 2 L ( x ) ∣ ∣ 2 ) ,

Lcs=1|Ωp|xΩpwp(x)||GL(x)GR2L(x)||2+1|Ωn|xΩnmax(0,Mwn(x)||GL(x)GR2L(x)||2),
Lcs=Ωp1xΩpwp(x)∣∣GL(x)GR2L(x)2+Ωn1xΩnmax(0,Mwn(x)∣∣GL(x)GR2L(x)2),
其中 ∣ Ω p ∣ , ∣ Ω n ∣ |\Omega_p|, |\Omega_n| Ωp,Ωn 为正像素与负像素的数量,第一项鼓励模型从不对称的图像中提取到鲁棒的SASS特征,使得正确匹配点的特征相似度更高。相反,第二项约束模型在不匹配点生成的特征相似度要大于边界 M M M, 是的模型生成的SASS特征具有可区分性。此外,通过余弦相似度的正负项权重 w p , w n w_p, w_n wp,wn 对正像素与负像素加权。在正像素的点, w p = ( 1 − cos ⁡ ( F L , F R 2 L ) ) / 2. w_p=(1-\cos(\mathbf{F}_L,\mathbf{F}_{R2L}))/2. wp=(1cos(FL,FR2L))/2.,表示当视差预测正确时,同名点之间特征相似度不高时给予更高的权重,使得模型关注于难以优化的点。 w n = ( 1 + cos ⁡ ( F L , F R 2 L ) ) / 2. w_n=(1+\cos(\mathbf{F}_L,\mathbf{F}_{R2L}))/2. wn=(1+cos(FL,FR2L))/2. 表示视差预测错误时,同名点之间的相似度很高时候,给予更高的权重,是的模型关注于预测错误更多的点。


损失函数

  光度一致性损失:
L p m = ( 1 − α p m ) ∣ ∣ I L − I R 2 L ∣ ∣ 1 + α p m ( 1 − S S I M ( I L , I R 2 L ) ) , (7)

Lpm=(1αpm)||ILIR2L||1+αpm(1SSIM(IL,IR2L)),
\tag{7} Lpm=(1αpm)∣∣ILIR2L1+αpm(1SSIM(IL,IR2L)),(7)
  特征度量损失:
L f m = ( 1 − α f m ) ∣ ∣ G L − G R 2 L ∣ ∣ 1 + α f m ( 1 − S S I M ( G L , G R 2 L ) ) , (8)
Lfm=(1αfm)||GLGR2L||1+αfm(1SSIM(GL,GR2L)),
\tag{8}
Lfm=(1αfm)∣∣GLGR2L1+αfm(1SSIM(GL,GR2L)),(8)

其中 α f m , α p m \alpha_{fm}, \alpha_{pm} αfm,αpm 是两项的权重,此外,视差平滑损失为:
L d s = ∣ ∂ x D ∣ e − ∣ ∂ x I L ∣ + ∣ ∂ y D ∣ e − ∣ ∂ y I L ∣ , (9) \mathcal{L}_{ds}=|\partial_x\mathbf{D}|e^{-|\partial_x\mathbf{I}_L|}+|\partial_y\mathbf{D}|e^{-|\partial_y\mathbf{I}_L|},\tag{9} Lds=xDexIL+yDeyIL,(9)
其中 ∂ x , ∂ y \partial_x, \partial_y x,y 为水平与竖直方向的梯度。总的损失函数为:
L = λ p m L p m + λ f m L f m + λ c s L c s + λ d s L d s . (10) \mathcal{L}=\lambda_{pm}\mathcal{L}_{pm}+\lambda_{fm}\mathcal{L}_{fm}+\lambda_{cs}\mathcal{L}_{cs}+\lambda_{ds}\mathcal{L}_{ds}.\tag{10} L=λpmLpm+λfmLfm+λcsLcs+λdsLds.(10)


实验结果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/993727
推荐阅读
相关标签
  

闽ICP备14008679号