赞
踩
实战深度强化学习DQN-理论和实践:https://www.jianshu.com/p/10930c371cac
DQN三大改进(一)-Double DQN:https://www.jianshu.com/p/fae51b5fe000
DQN三大改进(二)-Prioritised replay:https://www.jianshu.com/p/db14fdc67d2c
DQN三大改进(三)-Dueling Network:https://www.jianshu.com/p/b421c85796a2
基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。如果我们省略中间的步骤,即直接根据当前的状态来选择动作。
在强化学习中,还有另一种很重要的算法,即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了,大家可以有选择的进行预习和复习:
深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b
本文介绍的Actor-Critic算法呢,就是结合了上面两种算法的基本思想而产生的,什么是Actor?什么是Critic?二者是如何结合的,通过这篇文章,我们来一探究竟。
本篇文章的大部分内容均学习自莫烦老师的强化学习课程,大家可以在b站上找到相关的视频:https://www.bilibili.com/video/av16921335/#page=22
我们为什么要有Actor-Critic呢,下面的话摘自莫烦老师的文章:
我们有了像 Q-learning这么伟大的算
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。