赞
踩
分布式训练策略在深度学习领域中扮演着至关重要的角色,为了充分利用多个计算设备的潜力,我们常常需要采用不同的并行化方法。其中,数据并行、模型并行以及张量并行是常见且有效的策略之一。在本篇博客中,我们将深入探讨这些分布式训练策略中的张量并行(Tensor Parallelism),探讨其在加速模型训练过程中的独特优势和实现方式。让我们一起深入了解,如何通过张量并行策略,更加高效地训练深度学习模型。
所有计算设备需要聚合其他加速度卡给出的梯度值,然后使用平均梯度 (ΣN i=1Gi)/N 对模型进行更新,完成该批次训练
(1)按模型的层切分到不同设备,即层间并行或算子间并行(Inter-operator Parallelism),也称之为流水线并行(Pipeline Parallelism, PP);(2)将计算图层内的参数切分到不同设备,即层内并行或算子内并行(Intra-operator Parallelism),也称之为张量并行(Tensor Parallelism, TP)
对第一个 FC 层的参数矩阵按列切块,对第二个 FC层参数矩阵按行切块。
广义优势估计(Generalized advantage Estimation, GAE)
两种critic
从环境中采样完整的一次交互过程的方法也被称为蒙特卡洛方法(Monte Carlo Methods, MC)
critic 观察 π 进行游戏的整个过程, 直到该游戏回合结束再计算累积收益(通过比较期望收益和实际收益G,来训练critic)
Tip: 有时一个游戏回合可能会很长,这个等到游戏回合结束再计算收益的方法训练起来会很慢,因此引入另外一种方法 Temporal-difference(TD)
这种使用一步奖励,其余部分使用状态价值函数估计的方法来
自于时序差分(Temporal Difference, TD)
时序分差算法计算的是两个状态之间的收益差. (通过比较期望差异与实际差异r之间的差别来训练critic)
从蒙特卡洛方法到时序差分,方差逐渐减小、偏差逐渐增大
GAE 的定义在高偏差(当 λ = 0 时)和高方差(当 λ = 1 时)的估计之间平滑地插值,有效地管理着这种权衡
由于从游戏中获取的收益是一个随机变量,而MC方法是各状态下收益的加总,相对而言,MC方法得到的实际累积收益G的方差会很大.
相比较而言,TD只考虑状态之间的收益差,因此方差较小,但是由于没有从整体收益进行考虑,因此该方法的准确性不能得到保证
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。