赞
踩
DDPG——深度确定性策略梯度
核心思想:使用深度神经网络来近似表示策略函数和价值函数,策略网络用于输出确定性动作,价值网络用语评估状态-动作对的值。DDPG通过最大化累计期望回报来更新策略网络参数,通过最小化估计值与目标值之间的差来更新价值网络参数。
伪代码:
随机初始化critic网络和actor网络的权重、;初始化目标critic网络和目标actor网络中的权重,;初始化回放护眼存区R
for episode=1, M do
为动作探索初始化一个随机过程N(例如高斯)
获取初始化的观测状态
for t=1, T do
选择动作,引入随机噪声,是为了保证探索能力
执行动作,获得观测奖励和新的状态
将经验值存入回放缓存区R
从回放缓存区R中采样一批大小为N的样本数据
设置
通过使损失最小化更新critic网络参数:
通过样本策略梯度来更新acrtor网络参数:
更新目标网络:
end for
end for
DDPG与PPO不一样在于:PPO输出的是一个策略,即概率分布,而DDPG输出的是一个动作
DDPG算法可能会遇到估计偏差的问题,通常是由于它在初始价值函数和策略函数的近似时产生的,这种估计偏差可能会导致算法高估某些动作的价值,从而影响学习到的策略的质量。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。