赞
踩
深度强化学习-确定性策略梯度算法推导
前面我们详细推导过策略梯度算法 ,如果有小伙伴对这个算法的推导过程比较感兴趣的话,可以看一下我的这篇博文:深度强化学习-策略梯度算法推导。在连续的动作空间中,动作的个数是无穷大的。如果采用常规方法,需要计算。而对于无穷多的动作,最大值往往很难求得。为此,D.Silver等人在文章《Deterministic Policy Gradient Algorithm》中提出了确定性策略的方法,用于处理连续动作空间问题。本文将针对连续动作空间,推导出确定性策略的策略梯度算法。
对于连续动作空间里的确定性策略, 并不是一个通常意义上的函数,它对策略参数的梯度也不复存在(因为在状态处动作是唯一确定的)。不过确定性策略可以表示为,这样就可以对策略参数正常求导。
当策略是一个连续动作空间上的确定性策略时,确定性策略梯度定理为
确定性策略梯度算法
考虑Bellman期望方程:
以上两式对求梯度,有
将的表达式代入的表达式中,有
对上式求关于的期望,有
这样就得到了从到的递推式。注意,最终关注的梯度值为(因为我们需要最大化累积期望回报)
所以有
从而得到和之前策略梯度定理类似的形式。
对于连续动作空间中的确定性策略,更常用的是另外一种形式:
其中的期望是针对折扣的状态分布
而言的。
本文主要推导了确定性策略梯度算法及其常用形式,它是许多确定性算法的核心,例如DDPG和TD3等,所以希望大家能够理解(本文主要搬运于肖智清《强化学习原理与Python实现》)。
以上如果有出现错误的地方,欢迎各位怒斥!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。