当前位置:   article > 正文

【论文阅读】Generalization in Reinforcement Learning_contextual markov decision processes

contextual markov decision processes

【论文阅读】Generalization in Reinforcement Learning

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability,是 2022 年 CMU 发表的综述文章。

image-20221023100553846

本笔记只关注该文中的第四部分,即 强化学习中的泛化性

1 概要

强化学习中的泛化性侧重于设计算法,以产生能够转移或适应各种环境的策略,而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要,因为 测试时的环境通常与训练环境不同,或者在本质上是动态的。本文首先对泛化性的强化学习进行定义,随后介绍评估变化的两个维度,最后讨论现有增强强化学习泛化性的方法。

2 可泛化强化学习定义

为了在一个统一的框架中讨论泛化性,我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process),是 Hallak 等人在研究中最早提出,在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程(MDP)将标准的单任务 MDP 扩展到多任务设置。

Assaf Hallak, Dotan Di Castro, and Shie Mannor. 2015. Contextual markov decision processes. arXiv preprint arXiv:1502.02259 (2015).

在本文中,我们考虑 discounted infinite-horizon CMDPs,表示为一个元组 M = ( S , Z , A , R , P , p 0 , ρ , γ ) M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right) M=(S,Z,A,R,P,p0,ρ,γ)。其中, S \mathcal{S} S 为状态空间, Z \boldsymbol{Z} Z 为上下文空间, A \mathcal{A} A 为动作空间, R : S × A × Z ↦ R R: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R} R:S×A×ZR 为上下文相关的奖励函数, P : S × A × Z ↦ Δ ( S ) P: \mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S}) P:S×A×ZΔ(S) 为上下文相关的状态转移函数, p 0 : Z ↦ Δ ( S ) p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S}) p0:ZΔ(S) 为上下文相关的初始状态分布, ρ ∈ Δ ( Z ) \rho \in \Delta(\mathbb{Z}) ρΔ(Z) 为上下文分布, γ ∈ ( 0 , 1 ) \gamma \in (0,1 ) γ(0,1) 为折扣因子。需要注意的是,在非平稳环境分布的情况下,Font metrics not found for font: . 可能是一个时间因变量

为了在上下文 MDPs 中采样一个轨迹 τ : = { ( s t , a t , r t ) } t = 0 ∞ \tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty} τ:={(st,at,rt)}t=0,上下文 Font metrics not found for font: . 是在每一集开始时由环境随机生成的。在这里,每个

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/195007
推荐阅读
相关标签