赞
踩
NeurIPS 2023 poster
Author:Hanlin Yang, Chao Yu, peng sun, Siji Chen
paper link
Keywords: reinforcement learning, sparse reward, exploration, learning from demonstrations
提出一种稀疏奖励环境下,利用少量非最优演示数据引导智能体高效探索的方法。
利用高质量演示数据帮助智能体在稀疏奖励环境探索,是一种可行方法。但是这种演示数据的获取困难,因此探索如何使用次优数据非常重要。本文提出HYPO算法,利用模仿学习训练离线引导策略,帮助智能体在线探索,同时避免次优演示导致的保守策略。
本文首先基于一个假设,即在初始阶段,得到演示数据的专家策略性能是优于智能体的策略,即专家策略优势函数值(Advantage value)大于智能体策略。
HYPO的三个关键组成为:判别器、离线引导着(offline guider)和在线agent。判别器通过区分轨迹数据来自智能体还是演示专家,进而控制guider的学习过程。而guider则是通过Behavior cloning,动态学习智能体以及专家,从而为智能体提供引导。智能体提炼(distill)guider策略中的知识并超越它。
为了防止分类器在次优专家数据上过拟合,将判别器优化看作是positive-unlabeled (PU) 奖励学习问题,智能体数据看作是无标签混合数据,这样guider也可以向智能体学习。考虑到仅靠(s,a)信息很难区分专家与智能体的轨迹,本文对判别器的输入添加
log
π
b
\log\pi_b
logπb,最小化下列损失函数优化判别器:
L
d
=
η
E
(
s
,
a
)
∼
D
[
−
log
d
(
s
,
a
,
log
π
b
)
]
+
E
(
s
,
a
)
∼
B
[
−
log
(
1
−
d
(
s
,
a
,
log
π
b
)
)
]
−
η
E
(
s
,
a
)
∼
D
[
−
log
(
1
−
d
(
s
,
a
,
log
π
b
)
)
]
.
其中,超参数
η
\eta
η会随着学习进程而增加。
单纯的BC操作无法让策略超越演示数据的专家策略,因此HYPO中的
π
b
\pi_b
πb不仅利用离线准假数据,还采样了agent在线交互数据。对其优化采用了两个自适应权重
F
E
x
p
e
r
t
(
d
)
和
G
A
g
e
n
t
(
d
)
\mathcal{F}_{\mathrm{Expert}}(d)\mathrm{~和~}\mathcal{G}_{\mathrm{Agent}}(d)
FExpert(d) 和 GAgent(d),然后最小化下列损失函数
L
π
b
=
E
(
s
,
a
)
∼
D
[
−
log
π
b
(
a
∣
s
)
⋅
F
(
d
(
s
,
a
,
log
π
b
)
)
]
+
E
(
s
,
a
)
∼
B
[
−
log
π
b
(
a
∣
s
)
⋅
G
(
d
(
s
,
a
,
log
π
b
)
)
]
\mathcal{L}_{\pi_b}=\operatorname*{\mathbb{E}}_{(s,a)\sim\mathcal{D}}\left[-\log\pi_b(a|s)\cdot\mathcal{F}\left(d(s,a,\log\pi_b)\right)\right]+\operatorname*{\mathbb{E}}_{(s,a)\sim\mathcal{B}}\left[-\log\pi_b(a|s)\cdot\mathcal{G}\left(d(s,a,\log\pi_b)\right)\right]
Lπb=(s,a)∼DE[−logπb(a∣s)⋅F(d(s,a,logπb))]+(s,a)∼BE[−logπb(a∣s)⋅G(d(s,a,logπb))]
理想中的权重应该在初始阶段迫使
π
b
\pi_b
πb靠近专家,并增加
L
d
\mathcal{L}_d
Ld保证判别器的鲁棒性(对抗)。启发于对抗鲁棒性研究以及加权判别器研究,权重函数变化如下:
F
Expert
(
d
)
=
α
−
η
d
(
1
−
d
)
,
G
Λ
gent
(
d
)
=
1
1
−
d
,
\mathcal{F}_\text{Expert}(d)=\alpha-\frac{\eta}{d(1-d)},\quad\mathcal{G}_{\Lambda\text{gent}} ( d ) = \frac { 1 }{ 1 - d },
FExpert(d)=α−d(1−d)η,GΛgent(d)=1−d1,
在训练初期
η
\eta
η值较小,因此对判别器的变化不敏感,容易引导智能体策略模仿专家测量;而随着
η
\eta
η增加,判别器逐渐重要起来。来自专家数据集的(s,a)权重值
F
\mathcal{F}
F降低,引导智能体策略靠近
π
b
\pi_b
πb。而对于
B
\mathcal{B}
B的数据,若判别器判断其类似于专家,则鼓励其模仿专家数据。
基于PPO的优化目标,额外添加一项约束来控制guider对智能体策略的引导:
J
π
^
HYPO
(
θ
)
=
E
t
[
min
(
r
t
(
θ
)
A
t
,
c
l
i
p
(
r
t
(
θ
)
,
1
−
ϵ
,
1
+
ϵ
)
A
t
)
−
C
D
KL
(
π
^
∣
∣
π
b
)
]
J_{\hat{\pi}}^{\text{HYPO}}(\theta)=\mathbb{E}_{t}\Big[\min\Big(r_{t}(\theta)A_{t},\mathrm{clip}\big(r_{t}(\theta),1-\epsilon,1+\epsilon\big)A_{t}\Big)-CD_{\text{KL}}(\hat{\pi}||\pi_{b})\Big]
Jπ^HYPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)−CDKL(π^∣∣πb)]
其中C是一项递减的参数,防止智能体策略学习到归于保守的策略。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。