赞
踩
Hi,这是第三篇算法简介呀
论文链接:Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor,2018,ICML
强化学习的两个主要挑战是高样本复杂性和收敛性脆弱。在这篇文章中,提出了一个基于最大熵框架的actor-critic离线策略的深度强化学习算法SAC(Soft Actor-Critic)。在DDPG中,policy和Q-value之间相互作用,使得其不稳定,容易受超参数影响。在SQL中,将actor网络作为近似采样器,而不是actor-critic算法中真正的actor,收敛取决于采样值和真实后验值的近似程度。
最大熵强化学习是将最大熵项加在reward上,其目的是鼓励探索环境,希望学到的策略在优化目标的同时尽可能地随机,同时保持在各个有希望的方向上的可能性,而不是很快收敛到一个局部最优。使用温度参数 α \alpha α来决定熵对reward的影响,当 α \alpha α趋近于0时,则reward退化为传统强化学习reward。
第一个在最大熵框架下,使用off-policy更新策略的算法。
总共包含四个网络:策略网络( ϕ \phi ϕ),value网络和对应的目标网络( ψ \psi ψ和 ψ ‾ \overline \psi ψ),Q-value网络( θ \theta θ)。
J ( π ) = ∑ t = 0 T E ( s t , a t ) ∼ ρ π [ r ( s t , a t ) + α H ( π ( ⋅ ∣ s t ) ) ] J(\pi)=\sum_{t=0}^{T} \mathbb{E}_{\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \sim \rho_{\pi}}\left[r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\alpha \mathcal{H}\left(\pi\left(\cdot | \mathbf{s}_{t}\right)\right)\right] J(π)=t=0∑TE(st,at)∼ρπ[r(st,at)+αH(π(⋅∣st))]
T π Q ( s t , a t ) ≜ r ( s t , a t ) + γ E s t + 1 ∼ p [ V ( s t + 1 ) ] where V ( s t ) = E a t ∼ π [ Q ( s t , a t ) − log π ( a t ∣ s t ) ]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。