当前位置:   article > 正文

Actor-Critic 网络_actor-critic networks

actor-critic networks

实战深度强化学习DQN-理论和实践:https://www.jianshu.com/p/10930c371cac
DQN三大改进(一)-Double DQN:https://www.jianshu.com/p/fae51b5fe000
DQN三大改进(二)-Prioritised replay:https://www.jianshu.com/p/db14fdc67d2c
DQN三大改进(三)-Dueling Network:https://www.jianshu.com/p/b421c85796a2

基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。如果我们省略中间的步骤,即直接根据当前的状态来选择动作。

在强化学习中,还有另一种很重要的算法,即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了,大家可以有选择的进行预习和复习:
深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b

本文介绍的Actor-Critic算法呢,就是结合了上面两种算法的基本思想而产生的,什么是Actor?什么是Critic?二者是如何结合的,通过这篇文章,我们来一探究竟。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程,大家可以在b站上找到相关的视频:https://www.bilibili.com/video/av16921335/#page=22

1、Actor-Critic算法原理

我们为什么要有Actor-Critic呢,下面的话摘自莫烦老师的文章:

我们有了像 Q-learning这么伟大的算

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/552113
推荐阅读
相关标签
  

闽ICP备14008679号