当前位置:   article > 正文

【论文复现】Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions

control barrier function

记录一下近期的思考和工作,同时也希望督促自己不要懈怠。
有疑问的地方大家一起讨论,有不正确的地方大家积极指正。

论文简述

2021年挂在ArXiV上面的一篇文章。
文章的主要创新点在于:将ADP和CBF函数结合,用于实现在线的状态约束最优控制。作者还有一篇文章是CDC2020的,也是考虑ADP和CBF的结合,不过CDC那篇文章主要是将关于状态约束的Barrier Function 放到ADP的rewardfunction里面,而这篇文章是将safe control 和ADP的control分开来设计的,并分析了系统的稳定性。注意:CBF文献里大多是作为QP求解的约束条件来设计控制器,一般不能证明稳定性,现在也开始有一些文献提供了理论分析。

文章动机

ADP和CBF的结合很少,控制系统的状态约束一般是用barrier function,最早的ADP-CBF算法是我上一篇文章提到的,不过那是用off-policy PI计算的。

绪论里面最需要注意的一段话:
To this end, we propose a new class of CBFs based on the Lyapunov-like barrier functions studied in [11], termed Lyapunov-like CBFs (LCBFs), that retain the important properties of CBFs for making safety guarantees while possessing desirable Lyapunov-like qualities that become useful when studying system stability. Inspired by approaches such as [6]

文章根据以上的动机提出了LCBF函数,这也是文章的难点,有几个疑问:
1、这样将安全控制器和最优控制器分开计算,为什么还是能保证安全稳定性。虽然文章提供了理论分析,但我还是感觉比较牵强。
2、文章的仿真里面所举的例子本身就是一个稳定的系统,如果是一个不稳定的例子呢,这样安全控制器和最优控制器之间会不会相互干扰呢。
3、参数 c b c_b cb 的选取很重要,但是没有提供一个可靠的依据。直观来看的话,如果 c b c_b cb选的足够小,安全控制器的性能肯定会减弱,并最终难以保证状态约束,但是这应该怎么选呢
4、文章最后期望将ADP+RCBF结合,来克服系统的不确定性,这应该如何实现,暂时我也不太明白。
5、CBF的文献我看的还是比较浅显,后续深入了解后再补充一下

仿真复现结果

只是仿真了部分结果。对应文章的凸约束

参考文献:

1 Safe Exploration in Model-based Reinforcement Learning using
Control Barrier Functions

2 A general safety framework for learning-based control in uncertain robotic systems(文章的参考文献2)

3 End-to-end safe reinforcement learning through barrier functions for safety-critical continuous control tasks(文章的参考文献6)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
最新结果:
这几天一直在改进上文的算法,终于有了新的结果。
上文的控制器在形式上是有不足的,通过修正可以得到更好的近似最优的安全控制器。
附上仿真图,后续整理一下结果,可以把初稿写出来了。
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/72298
推荐阅读
相关标签
  

闽ICP备14008679号