搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
花生_TL007
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
将两个两位的正整数a,b合并成一个正整数放在c中,并输出c(c语言)_c语言将两个数合并为一个数
2
节省时间的分层测试,到底怎么做?_分层测试思路怎么写
3
访问Docker内的Kafka的几种办法_requirement failed: inter.broker.listener.name mus
4
linux篇-文件传输_scp 保留权限
5
LNMP下配置免费SSL安全证书(https)_lnmp certbot auto
6
linux文件系统
7
【AIGC】Baichuan2-13B-Chat模型微调
8
前端渲染模式CSR,SSR,SSG,ISR,DPR_csr ssr
9
pytorch的开源对话框架ParlAI系统实践_parlai项目
10
Android Studio导致App出现crash的问题_com.android.tools.profiler.support.profilers.event
当前位置:
article
> 正文
220609_Efficient Uncertainty-aware Decision-making for Automated Driving Using Guided Branching_eudm
作者:花生_TL007 | 2024-03-22 12:26:42
赞
踩
eudm
0、摘要
1)提出了一个有效的不确定性感知决策 (EUDM) 框架
该框架在复杂的驾驶环境中实时生成长期的横向和纵向行为。通过闭环策略树(DCP-Tree)结构和条件聚焦分支(CFB)机制控制计算复杂度。主要思想:利用特定领域的专家知识来指导行动和意图空间的分支。
2)使用真实车辆捕获的车载传感数据和交互式多智能体模拟平台进行了验证。
3)发布了我们框架的代码以适应基准测试。
https://github.com/HKUST-Aerial-Robotics/EPSILON
1、介绍
主要目标是解决在决策过程中需要的算力问题,以确保实时性,保持足够的灵活性和保真度。提出了有效的不确定性感知决策(Efficient uncertainty-aware decision-making, EDUM).
首先使用特定领域的闭环策略树(domain-specific closed-loop policy tree,DCP-TREE),构建语义级动作空间。在这个策略树中每一个节点都是一个有界的自车的语义行为集合。从根节点到叶节点的每条轨迹都代表了自我车辆的一系列语义动作。每个轨迹都以类似于 [14] 的闭环模拟的形式进行评估,但允许自我行为在规划范围内改变。
为了解决当其他车辆的行为不确定时,其意图的组合呈现指数增长,对所有的意图进行采样是第小的。故通过条件聚焦分支(Conditional Focused Branching,CFB)机制,利用开环安全评估对自我行动序列进行调节,挑选出有潜在风险的情景。
主要的贡献如下:
1、EUDM自动驾驶框架
2、实时且开源的框架实施
3、通过实车数据进行全面的实验和比较,使用了多代理模拟平台。
第二部分对相关工作进行回顾,第三部分进行概述,第四部分是方法,第五部分是实施,第六部分是实验结果与分析,第七部分是总结
2、相关工作
将决策问题解耦为预测与规划,将规划问题拆分为路径与速度。
POMDP的一些发展,以及在自动驾驶上的一些应用。
MPDM,因为自我的行为在规划边界是固定的,规划只能是被动的。
本文基于MDPM的思想,使用DCP-Tree让决策的结果能够小范围的改变,更加适合长期的决策。其次,即使是完全不确定行为预测的青黄下,也能够找出有风险的长清,确保了结构的安全性。
3、系统概述
在本文框架与之前的工作框架类似(220228),但本文更加注重决策。
使用DCP-Tree用来指导动作域中的分支,并且使用之前的最佳决策更新语义级的决策树。对于每一个自我行动序列,CFB机制被应用于挑出附近车辆的风险隐藏意图,并实现意图空间的引导性分支。CFB过程是一组包含附近车辆不同隐藏意图组合的情形。
所有的场景都被输入到一个成本评估的模块,并对有风险的分支进行惩罚,输出最佳的策略。由闭环前向策略以0.4s的分辨率产生。
4、通过引导式分支进行决策
4.1 POMDP预备知识
一个POMDP的决策可以被定义为< S,A,T,R,Z,O,\gamma>,分别定义了状态空间、动作空间、状态转移函数、奖励函数、观测空间、观测汉书、折扣因子。每一个元素都是部分可观察的,并被描述为一个可信状态b,是对状态空间的概率上的描述。可以使用贝叶斯推理b_t = \tao(\b_{t-1},a_{t-1},z_t)在给定行动a和观测到的z的情况下状态b进行更新。在线的POMDP规划器的目标是找到一个最优策略\pi^*最大化总预期折扣奖励,通过在规划空间t_h中给出一个初始的可信状态b_0。[4][26]
着一个优化策略通常从当前的可信状态开始多段前向搜索,一个置信树可以使用belief update的方式。当决策树高度过高时,决策的规模也就更大了(O(|A|^h|Z|^h)),A是运动空间,Z是观测空间。[5][7][27]是最先进的POMDP算法通过蒙特卡洛采样来结局Curse of Dimensionality and Curse of History 。启发式搜索可以加速采样过程。本文也有使用引导性的分支。
4.2 特定领域的闭环策略树
相较POMDP将大量的运算量放入到了不太可能的空间的搜索。MPDM的关键特征是使用语义层面的策略而不是传统的 "状态 "层面的行动。通过使用语义级别的策略,状态空间调整由简单的闭环控制器进行引导。受此引发,本文中也使用的是语义级别的策略。由于MPDM很难进行多段的决策,所以很难用于更长期的决策。
本文中,DCP-Tree被用来生成未来的行动序列,使得能够在规划的范围内决策发生变化。每一个节点都是预先定义的与特定持续时间相关联的预定义语义级动作。树的有向边为时间上的顺序,树的根节点是当前的状态。
受人类驾驶员通常不会在一个决策周期内来回地改变驾驶策略。所以受此启发,正在进行的动作中,每一个策略序列一个规划周期中最多包含一个动作变化。来回的行为是重新规划实现的。相当于对局部的描述更加模糊了,但是能够搜到更远的地方了。
4.3 CFB,条件聚焦分支
DCP树让分支有了引导,仍需解决其他交通参与者的语义意图,然而相应的复杂度又随参与者指数增长。MPDM 通过在假设周围车辆意图的情况下,利用行为预测进行采样,由于样本数量有限,可能无法推出有影响的风险结果,尤其是当初始意图预测不准确时,存在风险。
本文提出了CFP机来解决这个问题,使用尽可能少的分支找到附近的车辆的意图。C-条件:以自车策略序列为条件。当采取不同策略是,人类对周围的车辆会有不同的想法。所以对周围的决策也应当给予自车已有的决策。未来可以融入学习的方法做这一部分。
基于自车策略序列,获取需要关注的车辆,并通过进一步的安全检查,再挑一次。通过multiple hypotheses(多重假设)实现一个前向模拟。首先通过前向模拟实现初步的安全评估,然后对于没有通过的需要进一步闭环前向评估,如果通过了,那么通过从初始状态开始的最大化后验来进行。所以EUDM能够更聚焦于有危险的情形。
5、实施细节
5.1 介绍了一些树的参数
5.2 介绍了一些前向模拟中使用的技术
5.3 介绍了置信状态是如何生成的
5.4 介绍了CFB机的选取
首先选取了一定范围内的车,然后选取三个意图概率接近的车。对于有着良好预测的车,选取MAP来进行结果边缘化意图概率。第三步使用开环正向仿真进行安全评估、计算前k个场景的概率,成为场景选择的权重。
5.5 策略选择
5.6 轨迹生成 - 使用[28] 这篇文章
994、阅读总结
995、知识点积累
POMDP:部分可观察的马尔可夫决策过程 (POMDP) 提供了一种系统化的方法来整合这些不确定性交通参与者潜在随即行为和感知的不确定性,缺点是难以扩展到现实世界的大型问题。
DCP-TREE:
997、TIPS
LK - lane keeping
LC - lane changing
998、 Linked Papers
[1] POMDP
[2] POMDP 的维度诅咒(curse of dimensionality)
[3] 在线POMDP
[4] POMCP - 一种在线的POMDP求解器
[5][6] DESPOT
[5] branch-and-bound
[7] ABT 启发式的搜索,reachability analysis
[8]-[13] POMDP求解器在自动车辆的许多不确定性感知规划算法中的应用
[10] 将规划问题解耦为路径寻找与速度规划,POMDP用于速度规划
[14]-[16] Multipolicy decision-making(MPDM)它将POMDP过程近似为预先定义的语义层面的驾驶政策的闭环模拟
[14] 闭环模拟的形式进行评估
[15] MPDM
[17][18] 如果初始行为预测不准确,则可能会低估风险,可能导致不安全的决策
[19][20] 自动驾驶决策
[21]-[24] 将决策分为预测和计划
[25] 预测范围,基于学习的意图追踪
[26] POMDP
[27] POMDP 求解器 维度爆炸和历史诅咒(Curse of History)
[28] 一个读过的文章,220228,使用时空走廊进行安全的轨迹规划
[29] 智能驾驶模型
[30] 纯跟踪控制
[31] responsibility-sensitive
[32] lane-change-model
999、词语积累
anticipate v.预测
state-of-the-art 最先进的
tackle v. 解决(问题)
endl;
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/花生_TL007/article/detail/288168
推荐阅读
article
【EAI 028】
Video
as
the
New
Language
for
Real-
World
...
视频数据捕捉到了难以用语言表达的物理世界的重要信息。本文研究了扩展视频生成功能以解决现实世界中的任务。视频可以作为一个统...
赞
踩
article
2024无参考
图像
的清晰度评价方法_
quality
-
aware
pre-
trained
models...
无参考
图像
质量评价是指参考
图像
不存在的情况下,直接计算失真
图像
的视觉质量。根据无参考
图像
质量评价模型在计算
图像
视觉质量时...
赞
踩
article
Curricular
Contrastive
Regularization
for
Physics-...
本文结合构建的物理感知双分支单元和制定的课程学习对比正则化方法,构建了本文的去雾网络结构:C2PNet。实验表明,C2P...
赞
踩
article
CVPR
2022
Image
Dehazing
Transformer
with
Transmis...
在下面的内容中,我们将详细介绍这些模块。更详细的网络结构和参数可以在补充材料中找到。 3.2. Network Stru...
赞
踩
article
LLMs PEFT技术1:
LoRA
Parameter
effici
ent
fine
-
tuning
...
低秩适应(
LoRA
),简称为
LoRA
,是一种属于重新参数化类别的参数高效微调技术。让我们来看看它是如何工作的。作为一个快...
赞
踩
article
计算机
视觉论文-2021-07-30_rignet++:
efficient
repetitive ...
本专栏是
计算机
视觉方向论文收集积累,时间:2021年7月30日,来源:paper digest欢迎关注原创公众号【
计算机
...
赞
踩
article
【论文阅读】
Energy
Efficient
Real
-time Task Scheduling o...
主要工作:通过动态电压和频率缩放研究了新兴
CPU
-
GPU
混合集群的节能问题。 + 首次分析
GPU
特定的DVFS模型。 +...
赞
踩
article
Avellaneda
&
Stoikov
’
s
market
-
making
s
trategy
AS模型...
δa, δb = bid/a
s
k
s
pread,
s
ymmetrical → δa=δb 也就是一段时间内,这个midp...
赞
踩
article
Vision
-
RWKV
:
Efficient
and
Scalable
Visual
Percept...
Transformers 在计算机视觉和自然语言处理领域引起了革命,但它们的高计算复杂度限制了它们在高分辨率图像处理和长...
赞
踩
article
论文笔记:
Planning
and
Decision
-
Making
for
Autonomous
V...
这两天读了一篇MIT关于无人车规划与决策方面的综述文章,写的非常全面,读完酣畅淋漓。读到了很多复现过以及刚产生ide...
赞
踩
相关标签
人工智能
具身智能
扩散策略
扩散模型
掩码模型
自回归模型
世界模型
图像质量估计
无参考图像质量估计
深度学习
计算机视觉
图像处理
transformer
chatgpt
机器学习
神经网络
论文阅读
云计算
策略模式
区块链
语言模型