MapTR：Structured Modeling and Learning for Online Vectorized HD Map Construction——论文笔记

作者：Gausst松鼠会 | 2024-05-05 05:04:36

踩

maptr

参考代码：MapTR

1. 概述

介绍：这篇文章提出了一种向量化高清地图（vectorized HD map）构建的方法，该方法将高清地图中的元素（线条状或是多边形的）构建为由一组点和带方向边的组合。由于点和方向边在起始点未知的情况下其实是能对同一地图元素够成很多种表达的，对此文章对一个元素穷举了其所有可能存在的等效表达并将其运用到的实例匹配中去，这样可以有效避免一些特意场景下的歧义情况（如对象车道中间的分割线或是人行横道的多边形区域）。直接预测一个地图元素对网络来说是很困难的，对此文中对其进行简化（引入层次匹配优化），也就是先通过拓扑结构匹配上地图元素，再去优化地图元素中的点和边得到准确预测结果。不过这篇文章给出的感知距离比较近范围大概为前后向各30米，文章也没有给出其在不同距离下的性能表现。

在之前的一些方法中会通过分割（HDMapNet）或是序列预测（VectorMapNet）形式对高清地图中的元素进行建模，分割的形式对后处理具有较强依赖，能够直接预测（end-to-end）高清地图元素的方法（如VectorMapNet）则更符合实际中对模型的需求。对VectorMapNet进行分析之后可知其在如下的场景下会发生定义歧义的情况：
在这里插入图片描述
也就是不知道如何定义元素的起点和方向，同时VectorMapNet使用的是序列预测的方法会导致误差积累，更长的训练和收敛时间。此外其infer时间也是需要考量的因素。

2. 方法设计

2.1 地图元素建模

对于地图中的元素文章将其描述为由一组有序点 $V^F=[v_0,\dots,v_{N_v-1}]$ ， $N_v$ 为元素中控制点的数目，这些点再与对应方向边组合便可得到对应地图元素表达。对于地图中的元素可以依据其几何拓扑结构可以将其划分为线形和多边形，那么元素中的点起点和边的朝向就有很多可能的情况，对此文章对一个地图元素采取穷举的方法进行表述，如下图所示：
在这里插入图片描述
对于一个地图元素 $V^F$ 被建模为一组等效表达的集合 $\mathcal{V}=(V,\Gamma)$ ，其中 $\Gamma$ 就是这些点和方向穷举出来的等效元素表达。在文章的方法中将需要回归的目标通过transformer机制变为需要优化的query，以此实现最终结果预测。

2.2 训练时期的匹配机制

上文提到对于地图元素的建模是点和带方向边的组合，那么这些组合是如何与GT进行匹配的呢？文中指出其是通过两个层级的匹配实现的：instance层和point层，前一个用于确定大致回归目标，后一个用于精细化预测。见下图所示：
在这里插入图片描述
这里是采取1对多的形式建模，那么将其与固定顺序建模的结果进行比较：

2.2.1 instance层匹配

对于实例级别的匹配主要考虑两点：实例的类别和实例中点的位置差异：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/537338