当前位置:   article > 正文

【李宏毅-强化学习笔记】p6、Actor-Critic_critic网络返回给actor网络什么值

critic网络返回给actor网络什么值

一、policy gradient回顾

在这里插入图片描述
G是看到st后采取at之后获取的收益总和,但是这个值是一个分布值,在不同的episode中可能波动会很大。如果有足够的数据的话,这不是一个问题,当数据不足的时候,那么模型的波动会很大,希望用期望值来代替采样(当前的)值。就是说,训练一个network,输入为s输出为奖励的期望值。

二、Q_learning回顾

在这里插入图片描述
V是态势评估,Q是引导选择。

三、Actor-Critic

在这里插入图片描述
就是说,现在用两个网络来计算之前波动的系数。Q用来表征当前的选择有多哈,V表征均值,这样就有正有负。难点在于需要同时train两个网络,如何简化呢?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/552055
推荐阅读
相关标签
  

闽ICP备14008679号