赞
踩
原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability,是 2022 年 CMU 发表的综述文章。
本笔记只关注该文中的第四部分,即 强化学习中的泛化性。
强化学习中的泛化性侧重于设计算法,以产生能够转移或适应各种环境的策略,而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要,因为 测试时的环境通常与训练环境不同,或者在本质上是动态的。本文首先对泛化性的强化学习进行定义,随后介绍评估变化的两个维度,最后讨论现有增强强化学习泛化性的方法。
为了在一个统一的框架中讨论泛化性,我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process),是 Hallak 等人在研究中最早提出,在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程(MDP)将标准的单任务 MDP 扩展到多任务设置。
Assaf Hallak, Dotan Di Castro, and Shie Mannor. 2015. Contextual markov decision processes. arXiv preprint arXiv:1502.02259 (2015).
在本文中,我们考虑 discounted infinite-horizon CMDPs,表示为一个元组 M = ( S , Z , A , R , P , p 0 , ρ , γ ) M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right) M=(S,Z,A,R,P,p0,ρ,γ)。其中, S \mathcal{S} S 为状态空间, Z \boldsymbol{Z} Z 为上下文空间, A \mathcal{A} A 为动作空间, R : S × A × Z ↦ R R: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R} R:S×A×Z↦R 为上下文相关的奖励函数, P : S × A × Z ↦ Δ ( S ) P: \mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S}) P:S×A×Z↦Δ(S) 为上下文相关的状态转移函数, p 0 : Z ↦ Δ ( S ) p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S}) p0:Z↦Δ(S) 为上下文相关的初始状态分布, ρ ∈ Δ ( Z ) \rho \in \Delta(\mathbb{Z}) ρ∈Δ(Z) 为上下文分布, γ ∈ ( 0 , 1 ) \gamma \in (0,1 ) γ∈(0,1) 为折扣因子。需要注意的是,在非平稳环境分布的情况下,Font metrics not found for font: . 可能是一个时间因变量。
为了在上下文 MDPs 中采样一个轨迹
τ
:
=
{
(
s
t
,
a
t
,
r
t
)
}
t
=
0
∞
\tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty}
τ:={(st,at,rt)}t=0∞,上下文 Font metrics not found for font: . 是在每一集开始时由环境随机生成的。在这里,每个
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。