赞
踩
网络训练的时候基本做不了代码上的活,那就多读读目标检测的文献呗。
首先来看AAAI2020的文章“TANet: Robust 3D Object Detection from Point Clouds with Triple Attention”。这篇文章的核心创新点有两个:
在对车辆识别的准确率低于同年的SOTA方法,但是对于行人自行车识别的准确率是Top。此外,实验效果表明TANet
对点云上面的噪声比较鲁棒。该方法也是为数不多的在目标检测网络上使用注意力机制的模型。TANet
的网络结构示意图为:
图1:TANet示意图;其中TA模块是可扩展的特征提取模块;
V
V
V是输入体素。三重注意力机制分别由Point-wise
,Channel-wise
,和Voxel-wise
组成。首先使用Point-wise
和Channel-wise
得到融合的注意力特征图
M
M
M。根据它得到注意力作用后的体素特征
F
l
F_l
Fl。Voxel-wise
表示体素注意力机制,即体素点云中哪些体素是重要的,而哪些是不重要的。体素注意力机制作用在
F
1
F_1
F1上,得到最终体素特征
F
2
F_2
F2。体素注意力机制是个很有启发性的机制,有直观的意义。
图2:Triple Attention示意图
这个模块比较容易理解,如下图所示。Fine Regression
输入是Coarse Regression
的中间变量。可以说Coarse Regression
部分网络指导Fine Regression
部分网络。结构上跟SA-SSD
有点相似。
图3:Coarse-to-Fine Regression module示意图
这是篇2020年的预印文章“3D IoU-Net: IoU Guided 3D Object Detector for Point Clouds”。这篇文章的核心创新点有两个:
双阶段的目标检测算法。实验效果是在有些指标上优于SOTA算法。整体网络框图如下所示:
图4:3D IoU-Net示意图(从图上可以看出,Refine 3D Boxes
会反过来作用在输入流上。这是双阶段的目标检测的特征。)
ACA模块是TANet
中的注意力机制模块的一种修改版(对Point-wise和Channel-wise做的修改),ACA中的注意力权值矩阵是由下面的示意图来说明:
图5:ACA模块示意图
CGE模块意图在于提取目标点和它周围七个近邻点(一共就是八个点)的几何信息:
图6:CGE模块示意图
CGE模块不难理解,对应的数学公式为:
这是篇CVPR2020的文章“Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud”。这篇文章的核心创新点是设计一个图神经网络单元,用来提取点云特征。这篇文章的综述部分总结了三种常见的提取点云特征的方法:(1)基于体素的特征提取方法;(2)基于点云近邻几何的特征提取方法;(3)基于图的点云提取方法。个人觉得(2)和(3)的差别不是特别大。这篇文章的综述值得参考。
图7:三种常见的提取点云特征的方法
PointGNN
的网络结构图如下所示:
图8:PointGNN结构
它的核心在于其独特的GNN
结构。点云图的建立是依据KNN图构建的。很有启发的网络结构。
这是一篇CVPR Workshop文章。核心创新点在于通道注意力机制:
图9:CAN网络结构
把输入特征图的通道拆开,分成两部分,每一部分使用一个U-Net
提取特征,把两个通道提取的特征合并之后,用卷积网络生成一张注意力机制权重图。用该权重图作用在两个通道上,最后再把作用后的两通道特征图合并,得到最终的输出。思路简单易懂,结果也是有效的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。