赞
踩
Paper name
Unifying Voxel-based Representation with Transformer for 3D Object Detection
Paper Reading Note
URL: https://arxiv.org/pdf/2206.00630.pdf
当前的跨模态输入表达方式的特点
当前的跨模态特征表达方式的特点
本文认为比较合适的特征表达空间
基于 2d backbone 提取多视角或多帧图像的特征, 基于 FPN 用于生成 FI (H×W×C尺寸) 图像特征,不同 fpn stage 的 hw 不同
受到 lss 启发设计了一个 view transform 方案,基于 view transform 将图像特征转换到 voxel 空间上
首先基于单层 conv 将 FI 处理为 D 维度,然后基于 softmax 算子得到深度分布
对于体素中的点 (x, y, z),基于相机外参内参可以对应到图像 plane 中的某个 (u, v, d) 点,即可以通过图像特征转换到 voxel 空间上
其中
D
I
(
u
,
v
,
d
)
D_{I}(u, v, d)
DI(u,v,d) 代表图像特征
F
I
(
u
,
v
)
F_{I}(u, v)
FI(u,v) 在 voxel (x, y, z) 的occupancy probability
多帧处理方式:
相对远距离(20-30m) fusion 相对于 lidar 涨点幅度最大;lidar 和 camera 低照下精度都低;雨天基于 camera 融合涨点幅度较大
fusion 精度优势
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。