赞
踩
学习的agent和与环境互动的agent不是同一个,那么就是off-policy,反之就是on-policy(同策略)
Policy Gradient就是一个on-policy的算法,其奖励梯度公示如下:
∇
θ
R
θ
‾
=
E
τ
~
p
θ
(
τ
)
[
R
(
τ
)
∇
θ
l
o
g
(
p
θ
(
τ
)
)
]
\nabla_\theta\overline{R_\theta} = E_{\tau~p_\theta(\tau)}[R(\tau) \nabla_{\theta}log(p_\theta(\tau))]
∇θRθ=Eτ~pθ(τ)[R(τ)∇θlog(pθ(τ))]
可以看到奖励的梯度和网络的参数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。