MapTR论文笔记

作者：小蓝xlanll | 2024-05-05 05:04:10

踩

maptr

MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

目的

传统高精地图通过一些离线的基于 SLAM 的方法生成，需要复杂的流程以及高昂的维护费用。基于 bev 分割的建图方法，缺少向量化实例级的信息，比如说lane结构。为了获得向量化的 HD map，HDMapNet 将像素级的分割结果分组，需要复杂且耗时的后处理。VectorMapNet 将地图的元素表示成点序列，采用了层级式 coarse-to-fine 网络，并且利用了自回归的 decoder 预测序列化的点集，需要较长的推理时间。
![[attachments/Pasted image 20230806170047.png]]
当前在线向量化的在线高清地图的构建方法的效率较低，无法应用到实时的场景。DETR 采用了简单的 encoder-decoder transformer 结构，实现了端到端的目标检测。本文的目的是设计一个类似于 DETR 结构，高效的端到端的高清地图的构建方法。

本文的主要贡献主要有两点：

对于地图元素的统一表示
针对这种统一表示给出了一个端到端学习的网络结构

方法

地图元素表示

地图的元素可表示成折线和多边形两种类别。这两种都可以用点集表示。然而点集的排列方式不是唯一的，存在多种排列方式。比如说折线，它的起点和终点是可以互换的，代表两种方向，对于一些方向不敏感的元素，比如说人行道或者车道线，两种方向都是可以的。如下图所示：

如果让网络只学习某一种排列方式，是不合理的。因此本文对于每一个地图元素都给出了所有的排列组合方式，用于后续网络的训练。
对于折线，根据起点位置的不同，有两种排列方式。对于多边形，需要考虑两个因素：起点的位置以及连接的顺序（顺时针或逆时针），这样可以产生多种排列方式。

在这里插入图片描述

匹配方法

和 DETR 一样，MapTR 同时预测 N 个地图元素，N 是一个较大的数字，比一般场景中地图元素的数量要大。
MapTR 中需要使用两种匹配方法以实现网络预测的元素和 gt 某个元素的某一个具体的排列方式的匹配。本文的匹配方法有两个层级：Instance-level Matching 以及 Point-level Matching。

Instance-level Matching

在训练时，我们需要把网络预测的元素和 gt 匹配起来，这里也是使用的匈牙利匹配算法。
预测元素和 gt 的 cost 考虑两部分：
元素的类别以及位置。类别使用的是 Focal loss，位置的loss使用的是关于点位置的距离函数。

Point-level Matching

在实例级的匹配之后，我们已经拿到了预测元素和 gt 的匹配关系，然后我们还需要做点级的匹配。
预测的点集会和 gt 排列组合中每一个排列方法计算距离，选择距离最小的一个配对。这里使用的是曼哈顿距离。

训练的 loss

分类 loss focal loss
point2point loss，曼哈顿距离
edge direction loss，point2point loss 只考虑了点，并没有考虑和折线和多边形的边。edge direction loss 加入了对边方向的监督。这里使用的是余弦相似度。
边可以用向量来表示（空间中两个点的坐标相减）

网络结构

MapTR 结构还是比较直接的使用的是 bev + transformer decoder 结构