当前位置:   article > 正文

如何评估大模型全参数微调需要的显存_全局微调 需要多少资源配置

全局微调 需要多少资源配置

简介       

        现有的大模型 默认的是16bits精度,当模型的参数量大小为 **B ,推理所需的显存一般是 ** 的 2 倍。对于全参数微调所需显存,目前来说普遍的说法是约为推理所需显存的 3-4 倍(包括模型推理(1倍)、梯度(1倍)、优化器状态(AdamW 2倍,SGD 1倍)),也就是 ** 的 6-8 倍。但是从实际测试来看的话,全参数微调所需显存约为推理所需显存的10 倍左右,也即 ** 的20倍左右。

        以下是模型不同微调方法时候的经验显存数值:

方法

bits

7B

13B

30B

65B

8*7B

全参数微调

16

160GB

320GB

600GB

1200GB

900GB

Freeze

16

20GB

40GB

120GB

240GB

200GB

LoRA

16

16GB

32GB

80GB

160GB

120GB

QLoRA

8

10GB

16GB

40GB

80GB

80GB

QLoRA

4

6GB

12GB

24GB

48GB

32GB

结论

        从上述的经验显存上也可看到,全参数微调,约为 ** 的20倍左右;而4 bits 的QLoRA,所需的显存约为 ** 的1 倍左右。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/584068
推荐阅读
相关标签
  

闽ICP备14008679号