初探强化学习（5）DDPG算法。包含逐行分析Pytorch代码和算法分析_ddpg算法流程图

作者：不正经 | 2024-04-11 07:10:18

踩

ddpg算法流程图

这个博客适合老鸟来看，讲得很清楚。但是不详细。
有没有循环神经网络的感觉？这个博客都是这种图，很有意思
在这里插入图片描述
本文代码参考这个博客点击博客两字即可跳转。。

主要从这个博客搬来的https://zhuanlan.zhihu.com/p/111257402

还有这个博客讲的很清楚https://blog.csdn.net/weixin_43316082/article/details/89467208?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_title~default-1.queryctrv2&spm=1001.2101.3001.4242.2&utm_relevant_index=4

前言–如何快速搞懂一个算法

0.1 搞懂数据流向

只有弄明白数据流向，才能知道开发这个算法人的思想。

0.2 结合代码看如何实现

很多人实现代码的方式是不一样的，但是最终的数据流应该是一样的。

1. 我认为最清晰的图和算法流程分析

在这里插入图片描述

$a_{t} = \mu(s_{t})$

DDPG算法流程如下：

初始化Actor\Critic的 online 神经网络参数: $\theta^{Q}$ 和 $\theta^{\mu}$ ；将online网络的参数拷贝给对应的target网络参数： $\theta{Q{\prime}} \leftarrow \theta^{Q}$ , $\theta{\mu{\prime}} \leftarrow \theta^{\mu}$ ;
初始化replay memory buffer R;
for each episode:
初始化UO随机过程；
for t = 1, T:
下面的步骤与DDPG实现框架图中步骤编号对应：
1. actor 根据behavior策略选择一个 $a_{t}$ , 下达给gym执行该 $a_{t}$
在这里插入图片描述
behavior策略是一个根据当前online策略 $\mu$ 和随机UO噪声生成的随机过程, 从这个随机过程采样获得 $a_{t}$ 的值。
2. gym执行 $a_{t}$ ，返回reward $r_{t}$ 和新的状态 $s_{t+1}$
3. actor将这个状态转换过程(transition): $s_{t}, a_{t}, r_{t}，s_{t+1})$ 存入replay memory buffer R中，作为训练online网络的数据集。
4. 从replay memory buffer R中，随机采样 N个 transition 数据，作为online策略网络、 online Q网络的一个mini-batch训练数据。我们用 $s_{i}, a_{i}, r_{i}，s_{i+1})$ 表示mini-batch中的单个transition数据。
5. 计算online Q网络的 gradient：
Q网络的loss定义：使用类似于监督式学习的方法，定义loss为MSE: mean squared error：
在这里插入图片描述
其中, $y_{i}$
可以看做"标签"：

基于标准的back-propagation方法，就可以求得L针对 $\theta^{Q}$ 的gradient： $\triangledown_{\theta^{Q}} L$ 。
有两点值得注意：

$y_{i}$ 的计算，使用的是 target 策略网络 $\mu^{\prime}$ 和 target Q 网络 $Q^{\prime}$ ,
这样做是为了Q网络参数的学习过程更加稳定，易于收敛。
这个标签本身依赖于我们正在学习的target网络，这是区别于监督式学习的地方。

6. update online Q：采用Adam optimizer更新 $\theta^{Q}$ ;
7. 计算策略网络的policy gradient：
policy gradient的定义：表示performance objective的函数 $J$ 针对 $\theta^{\mu}$ 的gradient。根据2015 D.Silver 的DPG 论文中的数学推导，在采用off-policy的训练方法时，policy gradient算法如下：
在这里插入图片描述
也即，policy gradient是在s根据 $\rho^{\beta}$ 分布时， $\triangledown_{a}Q\cdot \triangledown_{\theta^{\mu}} \mu$ 的期望值。我们用Monte-carlo方法来估算这个期望值：
在replay memory buffer中存储的(transition)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/403547?site