赞
踩
深度强化学习(Deep Reinforcement Learning)顾名思义,是深度学习与强化学习的结合,因此深度强化学习弥补了DL和RL的不足之处。
因此由于深度学习特征感知能力强却缺乏决策能力,引入了深度强化学习这个概念。
要了解深度强化学习,首先要了解强化学习这个概念,接下来就简单介绍一下强化学习的基础知识。
强化学习是从环境状态到动作空间的映射的一种学习。它的基础是马尔可夫决策过程(MDP),即:当前状态只与上一个状态有关,不考虑上一个状态之前的累积影响。
通常MDP被定义为一个四元组(S,A,R,P):
除了四元组,强化学习还有两个重要的函数,分别为值函数和Q函数。两个函数均代表求解的一个累积奖励,即agent的目标并非当前的奖励最大,而是平均累积奖励最大。
除此之外,我们注意到强化学习是一个动态规划的过程,因此它的学习方式定义为Q-learning。强化学习的任务归结到动态规划寻优问题,即为每一个状态找到最优的动作。Q-learning是一种value-based方法,核心为Bellman最优化等式:
通过Bellman最优化等式求解Q值函数并进行更新,这个过程称为Q-learning。
Q-learning是一种表格方法,根据过去出现的状态统计和迭代Q值,因此适用空间较小,导致其没有预测能力;没出现过的状态Q-learning无法处理,因此导致其没有泛化能力。因此引出了深度强化学习,通过引入深度神经网络端到端地拟合Q值,使其具有预测能力。
目前来讲,根据一些文献来看,DRL的主要方法分为基于值函数、基于策略梯度和基于多agent。这里我们就介绍基于值函数的深度强化学习方法,引出深度Q网络---DQN。
算法如下:
其中能够使DQN有效的两个重要的trick就是经验回放(Experience Replay)和分离目标网络(Separate Target Network)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。