赞
踩
A2C、A3C 都是在线策略,在与环境交互时,样本参数更新效率低,所以主要是应用在离散空间,计算量没那么大。
DDPG 专用于解决连续空间的问题。
设计思路结合了确定性策略(给定状态下,策略会产生一个特定动作,而不是动作的概率分布)和 演员-评论家 框架。
适用于处理需要精细控制的问题,例如跑车的运动控制,它在连续动作空间中的确表现更好。
DDPG 有 4 个神经网络。
四个网络可用一个舞台剧的比喻来解释:
演员(Actor网络):
评论家(Critic网络):
备用演员(Target Actor网络):
备用评论家(Target Critic网络):
在DDPG算法中,这四个网络协同工作:演员决定动作,评论家评价这些动作,而备用演员和备用评论家则帮助保持整个学习过程的平稳和连续性。
价值网络目标函数 = 目标值网络(Target-Q)+ 当前值网络(Current-Q),均分误差最小化俩者之间的差异。
DDPG 使用了目标策略网络:
J t θ = − Q w ( s t , μ θ ( s t ) ) J_{t}^{\theta}=-Q^{w}\left(s_{t},\mu_{\theta}\left(s_{t}\right)\right) Jtθ=−Qw(st,μθ(st))
选 Q 函数负值为目标函数,使策略朝着增加 Q 值的方向进化
使用目标策略网络,减少 Q 函数波动,提升训练稳定性和收敛性
完整流程图:
环境交互:
经验回放:
批样本抽取:
Critic(评价家):
Actor(演员):
优化器:
软更新:
整个流程是一个循环过程,Actor和Critic网络的参数通过与环境的交互和优化器的更新不断地进行调整,以此来提升策略的性能。
通过这种方式,DDPG算法能够让Agent学会在连续的动作空间内做出决策。
深度确定性策略梯度(DDPG)算法适用于以下条件:
连续动作空间:
高维状态空间:
离散时间决策:
需要策略梯度的场景:
长期依赖的任务:
充分的计算资源:
稳定的环境模型:
足够的探索机会:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。