当前位置:   article > 正文

分布式训练策略 Distributed Training policy

分布式训练策略 Distributed Training policy

Distributed Training policy

分布式训练策略在深度学习领域中扮演着至关重要的角色,为了充分利用多个计算设备的潜力,我们常常需要采用不同的并行化方法。其中,数据并行、模型并行以及张量并行是常见且有效的策略之一。在本篇博客中,我们将深入探讨这些分布式训练策略中的张量并行(Tensor Parallelism),探讨其在加速模型训练过程中的独特优势和实现方式。让我们一起深入了解,如何通过张量并行策略,更加高效地训练深度学习模型。

数据并行(Data Parallelism, DP)

所有计算设备需要聚合其他加速度卡给出的梯度值,然后使用平均梯度 (ΣN i=1Gi)/N 对模型进行更新,完成该批次训练

模型并行(Model Parallelism, MP)

(1)按模型的层切分到不同设备,即层间并行或算子间并行(Inter-operator Parallelism),也称之为流水线并行(Pipeline Parallelism, PP);(2)将计算图层内的参数切分到不同设备,即层内并行或算子内并行(Intra-operator Parallelism),也称之为张量并行(Tensor Parallelism, TP)

张量并行 Tensor Parallelism

image-20231203194324563

transform 中的FNN结构:

对第一个 FC 层的参数矩阵按列切块,对第二个 FC层参数矩阵按行切块。

image-20231203113238647

多头自注意力机制张量

image-20231203112657292

广义优势估计(Generalized advantage Estimation, GAE)

两种critic

从环境中采样完整的一次交互过程的方法也被称为蒙特卡洛方法(Monte Carlo Methods, MC)

critic 观察 π 进行游戏的整个过程, 直到该游戏回合结束再计算累积收益(通过比较期望收益和实际收益G,来训练critic)
Tip: 有时一个游戏回合可能会很长,这个等到游戏回合结束再计算收益的方法训练起来会很慢,因此引入另外一种方法 Temporal-difference(TD)

这种使用一步奖励,其余部分使用状态价值函数估计的方法来
自于时序差分(Temporal Difference, TD)

时序分差算法计算的是两个状态之间的收益差. (通过比较期望差异与实际差异r之间的差别来训练critic)

从蒙特卡洛方法到时序差分,方差逐渐减小、偏差逐渐增大

image-20231203170851254

GAE 的定义在高偏差(当 λ = 0 时)和高方差(当 λ = 1 时)的估计之间平滑地插值,有效地管理着这种权衡

由于从游戏中获取的收益是一个随机变量,而MC方法是各状态下收益的加总,相对而言,MC方法得到的实际累积收益G的方差会很大.
相比较而言,TD只考虑状态之间的收益差,因此方差较小,但是由于没有从整体收益进行考虑,因此该方法的准确性不能得到保证

image-20231203171545319

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/420474
推荐阅读
相关标签
  

闽ICP备14008679号