赞
踩
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
VoxelNet
端到端的3D目标检测网络,且仅使用3D LIDAR 点云数据就可以得到很好的精度。
网络结构包含三个过程:
1. Feature learning network
2. Convolutional middle layers
对4D tensor 进行3D 卷积,对D方向上的像素进行降采样,经过middle layers 之后得到 64×2×400×352的输出,然后reshape到 128 × 400 × 352 变成3D tensor, 与BEV视图上的栅格尺寸对应。
这一步相当于把3D 栅格拍扁,变成一个平面栅格,每个栅格是128维度特征。便于后续RPN进行2D卷积。
3. Region proposal network
RPN的输入与二维图像一样,128个通道的H' x W'图像,经过三次卷积+1次concate得到最后的特征,用于提取每一个anchor的概率值和回归值。三次卷积block的首次卷积都是步长为2的3x3的卷积,后续都是步长为1的3x3卷积。(输入通道,输出通道,kernel_size, stride_size, padding_size)。
loss
整体loss = 正样本分类loss+负样本分类loss+正样本回归loss
整体网络框架如下:
参考:https://blog.csdn.net/hit1524468/article/details/80023901
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。