Actor-Critic 网络_actor-critic networks

作者：繁依Fanyi0 | 2024-05-08 01:10:59

踩

actor-critic networks

实战深度强化学习DQN-理论和实践：https://www.jianshu.com/p/10930c371cac
DQN三大改进(一)-Double DQN：https://www.jianshu.com/p/fae51b5fe000
DQN三大改进(二)-Prioritised replay：https://www.jianshu.com/p/db14fdc67d2c
DQN三大改进(三)-Dueling Network：https://www.jianshu.com/p/b421c85796a2

基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然后根据价值贪心的选择动作。如果我们省略中间的步骤，即直接根据当前的状态来选择动作。

在强化学习中，还有另一种很重要的算法，即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了，大家可以有选择的进行预习和复习：
深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b

本文介绍的Actor-Critic算法呢，就是结合了上面两种算法的基本思想而产生的，什么是Actor？什么是Critic？二者是如何结合的，通过这篇文章，我们来一探究竟。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程，大家可以在b站上找到相关的视频：https://www.bilibili.com/video/av16921335/#page=22

1、Actor-Critic算法原理

我们为什么要有Actor-Critic呢，下面的话摘自莫烦老师的文章：

我们有了像 Q-learning这么伟大的算

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/552113