当前位置:   article > 正文

Actor Critic算法简要理解_actor and critic

actor and critic

问题:

给定一个state,如何找到一个action,使得这个action带来的reward最大?

Actor Critic算法:

网络定义
Actor和critic分别是两个结构不同神经网络
(其实,它们还各有一个与自身结构相同,但是参数权值不同的孪生网络。一个记为eval_net,一个记为target_net。所以一共是四个网络)
A c t o r Actor Actor:输入(state),输出(action)
C r i t i c Critic Critic:输入(state, action),输出(reward),即这里的Q值

前向传播过程
s t a t e state state传给Actor,然后获取Actor输出的 a c t i o n action action值即可。

网络更新过程:
更新Critic:
C r i t i c Critic Critic的更新,就是计算出 r e w a r d reward reward关于 C r i t i

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/552052
推荐阅读
相关标签
  

闽ICP备14008679号