当前位置:   article > 正文

MapTR, MapTRv2学习

maptrv2

一、MapTR

1.1 MapTR概述

已有的实时建图算法

  • 目标检测?无法表达不规则实例

  • 语义分割?缺乏拓扑结构 HDMapNet(语义分割+后处理)

  • 图结构?稀疏图,复杂度过高 InstraGraM(点检测+GNN)

  • Auto-regression?VectorMapNet (已知前n个车道关键点,预测n+1)

MapTR提出一种DETR-like(一种基于transformer的目标检测网络) 的端到端的HD矢量地图网络结构。

  • permutation-equivalent:将地图实例模拟成一堆点集(并非单一起始结束点序列,而是一堆点集不同排列方式的组合)。分为polyline和polygon两类要素

  • 贡献点不在于Encoder,而在于获得BEV特征后,如何处理BEV特征。

1.2 模型结构

cost计算

  • Instance-level Matching :实例级匹配cost计算 (分类cost和回归cost(代码中是用的点对点cost))

  • Point-level Matching :

        

loss计算 (主要是点对点之间的回归,而不是instance级别的回归)

  • Classification Loss

        

  • Point2point Loss

        

  • Edge Direction Loss (约束点序列)

        

二、MapTR v2

2.1 v1 核心贡献

  • permutation-equivalent modeling :将地图实例模拟成一堆点集(并非单一起始结束点序列,而是一堆点集不同排列方式的组合)。

  • hierarchical query embedding (层次化查询嵌入):类似在自然语言处理中,如果你有一个包含嵌套结构的句子或段落,你可能会使用层次化查询嵌入来将这些信息嵌入到神经网络模型中,以便模型可以有效地处理这种层次结构的数据。

2.2 v1 vs v2

  • decoupled self-attention

    • transformer 复杂度是 n^2,(point query * instance query) ^ 2,计算量巨大。

    • 改为decoupled sef-attention,inter-ins self-attention + intra-ins self-attention

  • auxiliary one-to-many set prediction

  • center-line

  • 取消了部分类别的permutation,如center-line

  • PV vs BEV

  • dense supervision

2.3 模型结构

三、【地平线*自动驾驶之心】在线高精矢量化地图构建SOTA方案MapTR v1/v2、LaneGAP

3.1 核心内容摘要

道路拓扑建模:

方案一(Pixel-wise modeling):基于分割的方式,通过后处理将分割变为一个像素宽度的线,再后处理沿着线trace得到道路拓扑。

方案二(Piece-wise modeling):预测段,再预测段与段的连接关系。

新方案(Path-wise modeling):更长且相对完整,有overlap,可以隐式将分歧点连接关系编码到完整的实例中。

MapTR:

引入permutation-equivalent(等价置换),LaneGAP引入Path-wise modeling。可学好学。

MapTR v2:

中心线分割;支持2d/3d 矢量化地图;模型升级;训练方法升级

  • 模型结构,decoder 两个改进

    • v1 训练代价大,v2 只做实例间的self-attention,另外self-attention解耦为2个,推理慢一些,训练快些。

    • pv based cross attention

  • 正负样本分配

    • 车道中心线不给增广图

  • 辅助监督

四、附录

4.1 术语

FPS :每秒帧数

PV to BEV:某个特定的视角(Point of View)转为鸟瞰视图(Bird's Eye View),即从相机或传感器的特定位置(视角)获取的信息,转换为整个场景的鸟瞰视图。

mAP:mAP 是一种用于评估目标检测模型性能的指标,全称是 mean Average Precision(平均精度均值),值越高表示性能越好。

边缘的余弦相似性:计算两个边缘图像之间的相似性,其中边缘图像指的是包含对象边缘信息的二值图像。常见的边缘检测算法包括Sobel、Canny等,得到两个图像的边缘后,可以使用余弦相似性来衡量它们之间的相似程度。

损失函数(Loss Function ):定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function ):定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。

4.2 参考

https://www.eet-china.com/mp/a251318.html

MapTR/MapTRV2,实时建图万字长文

手撕MapTRv2:百忙之中敷衍大家_哔哩哔哩_bilibili

【地平线×自动驾驶之心】在线高精矢量化地图构建SOTA方案MapTR v1/v2、LaneGAP_哔哩哔哩_bilibili

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/720950
推荐阅读
相关标签
  

闽ICP备14008679号