赞
踩
卷积神经网络已经被证明对于二维图像信号处理是非常有效的。然而,对于三维点云信号,额外的维度显著增加了计算量。
另一方面,与普通图像每个像素都有值不同的是,一般情况下三维点云中多数空间都是空的,这使得三维体素中的点云数据通常是稀疏信号。
我们是否能只计算有效数据的卷积,而不是扫描所有的图像像素或空间体素?否则这些空白区域带来的计算量太多余了。这就是 sparse convolution 提出的motivation。
为了逐步解释稀疏卷积的概念,使其更易于理解,本文以二维稀疏图像处理为例。由于稀疏信号采用数据列表和索引列表表示,二维和三维稀疏信号没有本质区别。
使用以下稀疏图像作为输入
如图所示,我们有一个5×5的3通道图像。除了P1和P2两点外,所有像素都是空,我们称像P1和P2这样的非空点为active input site。
在稀疏格式中,数据列表是[[0.1,0.1,0.1], [0.2,0.2,0.2] ,索引列表是[1,2] ,[2,3] ,并且是YX顺序。
在卷积过程中卷积核如下定义,每个卷积核是一个3x3矩阵。深色和浅色代表两种滤镜。
有两种稀疏卷积。
一种是 regular output definition,就像普通的卷积一样,只要kernel 覆盖一个 active input site,就可以计算出output site。
另一个称为submanifold output definition。只有当kernel的中心覆盖一个 active input site时,卷积输出才会被计算。
上图说明了这两种输出之间的区别。
A1代表 active site,即 P1产生的卷积结果。
类似地,A2代表从 P2计算出的 active site。A1A2代表 active site,它是 P1和 P2输出的总和。
深色和浅色代表不同的输出通道。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。