Actor Critic算法简要理解_actor and critic

作者：我家小花儿 | 2024-05-08 00:57:42

踩

actor and critic

问题：

给定一个state，如何找到一个action，使得这个action带来的reward最大？

Actor Critic算法：

网络定义
Actor和critic分别是两个结构不同神经网络。
（其实，它们还各有一个与自身结构相同，但是参数权值不同的孪生网络。一个记为eval_net，一个记为target_net。所以一共是四个网络）
$A c t o r$ ：输入(state)，输出(action)
$C r i t i c$ ：输入(state, action)，输出(reward)，即这里的Q值

前向传播过程
将 $s t a t e$ 传给Actor，然后获取Actor输出的 $a c t i o n$ 值即可。

网络更新过程：
更新Critic：
$C r i t i c$ 的更新，就是计算出 $r e w a r d$ 关于

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/552052