当前位置:   article > 正文

强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、_ddpg算法actor 的损失函数为什么是负的

ddpg算法actor 的损失函数为什么是负的

一. Actor Critic

1.基本概念
Actor Critic 为类似于Policy Gradient 和 Q-Learning 等以值为基础的算法的组合。

a. 其中Actor 类似于Policy Gradient,以状态s为输入,神经网络输出动作actions,并从在这些连续动作中按照一定的概率选取合适的动作action。
b. Critic 类似于 Q-Learning 等以值为基础的算法,由于在Actor模块中选择了合适的动作action,通过与环境交互可得到新的状态s_, 奖励r,将状态 s_作为神经网络的输入,得到v_,而原来的状态s通过神经网络输出后得到v。
c. 通过公式$ \ td_{error}= r+\gamma v_{-} \ - v$得到状态之间的差 t d e r r o r td_{error} tderror,最后通过状态s,动作action,以及误差 t d e r r o r td_error tde

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/552060
推荐阅读
相关标签
  

闽ICP备14008679号