当前位置:   article > 正文

2024/4/25:Hybrid Policy Optimization from Imperfect Demonstrations_neurips2024

neurips2024

NeurIPS 2023 poster
Author:Hanlin Yang, Chao Yu, peng sun, Siji Chen
paper link
Keywords: reinforcement learning, sparse reward, exploration, learning from demonstrations
提出一种稀疏奖励环境下,利用少量非最优演示数据引导智能体高效探索的方法。

1. Abstract

利用高质量演示数据帮助智能体在稀疏奖励环境探索,是一种可行方法。但是这种演示数据的获取困难,因此探索如何使用次优数据非常重要。本文提出HYPO算法,利用模仿学习训练离线引导策略,帮助智能体在线探索,同时避免次优演示导致的保守策略。

2. Method

在这里插入图片描述

本文首先基于一个假设,即在初始阶段,得到演示数据的专家策略性能是优于智能体的策略,即专家策略优势函数值(Advantage value)大于智能体策略。

HYPO的三个关键组成为:判别器、离线引导着(offline guider)和在线agent。判别器通过区分轨迹数据来自智能体还是演示专家,进而控制guider的学习过程。而guider则是通过Behavior cloning,动态学习智能体以及专家,从而为智能体提供引导。智能体提炼(distill)guider策略中的知识并超越它。

2.1 Semi-supervised Discriminator Learning

为了防止分类器在次优专家数据上过拟合,将判别器优化看作是positive-unlabeled (PU) 奖励学习问题,智能体数据看作是无标签混合数据,这样guider也可以向智能体学习。考虑到仅靠(s,a)信息很难区分专家与智能体的轨迹,本文对判别器的输入添加 log ⁡ π b \log\pi_b logπb,最小化下列损失函数优化判别器:
L d = η E ⁡ ( s , a ) ∼ D [ − log ⁡ d ( s , a , log ⁡ π b ) ] + E ⁡ ( s , a ) ∼ B [ − log ⁡ ( 1 − d ( s , a , log ⁡ π b ) ) ] − η E ⁡ ( s , a ) ∼ D [ − log ⁡ ( 1 − d ( s , a , log ⁡ π b ) ) ] .

Ld=ηE(s,a)D[logd(s,a,logπb)]+E(s,a)B[log(1d(s,a,logπb))]ηE(s,a)D[log(1d(s,a,logπb))].
Ld=η(s,a)DE[logd(s,a,logπb)]+(s,a)BE[log(1d(s,a,logπb))]η(s,a)DE[log(1d(s,a,logπb))].
其中,超参数 η \eta η会随着学习进程而增加。

2.2 Adaptive Target for Offline Imitation

单纯的BC操作无法让策略超越演示数据的专家策略,因此HYPO中的 π b \pi_b πb不仅利用离线准假数据,还采样了agent在线交互数据。对其优化采用了两个自适应权重 F E x p e r t ( d )  和  G A g e n t ( d ) \mathcal{F}_{\mathrm{Expert}}(d)\mathrm{~和~}\mathcal{G}_{\mathrm{Agent}}(d) FExpert(d)  GAgent(d),然后最小化下列损失函数
L π b = E ⁡ ( s , a ) ∼ D [ − log ⁡ π b ( a ∣ s ) ⋅ F ( d ( s , a , log ⁡ π b ) ) ] + E ⁡ ( s , a ) ∼ B [ − log ⁡ π b ( a ∣ s ) ⋅ G ( d ( s , a , log ⁡ π b ) ) ] \mathcal{L}_{\pi_b}=\operatorname*{\mathbb{E}}_{(s,a)\sim\mathcal{D}}\left[-\log\pi_b(a|s)\cdot\mathcal{F}\left(d(s,a,\log\pi_b)\right)\right]+\operatorname*{\mathbb{E}}_{(s,a)\sim\mathcal{B}}\left[-\log\pi_b(a|s)\cdot\mathcal{G}\left(d(s,a,\log\pi_b)\right)\right] Lπb=(s,a)DE[logπb(as)F(d(s,a,logπb))]+(s,a)BE[logπb(as)G(d(s,a,logπb))]

理想中的权重应该在初始阶段迫使 π b \pi_b πb靠近专家,并增加 L d \mathcal{L}_d Ld保证判别器的鲁棒性(对抗)。启发于对抗鲁棒性研究以及加权判别器研究,权重函数变化如下:
F Expert ( d ) = α − η d ( 1 − d ) , G Λ gent ( d ) = 1 1 − d , \mathcal{F}_\text{Expert}(d)=\alpha-\frac{\eta}{d(1-d)},\quad\mathcal{G}_{\Lambda\text{gent}} ( d ) = \frac { 1 }{ 1 - d }, FExpert(d)=αd(1d)η,GΛgent(d)=1d1,
在训练初期 η \eta η值较小,因此对判别器的变化不敏感,容易引导智能体策略模仿专家测量;而随着 η \eta η增加,判别器逐渐重要起来。来自专家数据集的(s,a)权重值 F \mathcal{F} F降低,引导智能体策略靠近 π b \pi_b πb。而对于 B \mathcal{B} B的数据,若判别器判断其类似于专家,则鼓励其模仿专家数据。

2.3 Performance Improvement of Online Learning

基于PPO的优化目标,额外添加一项约束来控制guider对智能体策略的引导:
J π ^ HYPO ( θ ) = E t [ min ⁡ ( r t ( θ ) A t , c l i p ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) − C D KL ( π ^ ∣ ∣ π b ) ] J_{\hat{\pi}}^{\text{HYPO}}(\theta)=\mathbb{E}_{t}\Big[\min\Big(r_{t}(\theta)A_{t},\mathrm{clip}\big(r_{t}(\theta),1-\epsilon,1+\epsilon\big)A_{t}\Big)-CD_{\text{KL}}(\hat{\pi}||\pi_{b})\Big] Jπ^HYPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)CDKL(π^∣∣πb)]
其中C是一项递减的参数,防止智能体策略学习到归于保守的策略。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/619232
推荐阅读
相关标签
  

闽ICP备14008679号