当前位置:   article > 正文

训练不同大小的大语言模型需要多少资源?快来看看你的服务器够不够用

训练不同大小的大语言模型需要多少资源?快来看看你的服务器够不够用

根据LLaMA-Factory仓库文档,训练大语言模型的资源需求如下表所示,快来看看你的服务器够不够用吧!

方法精度7B13B30B70B110B8x7B8x22B
Full *AMP*120GB240GB600GB1200GB2000GB900GB2400GB
Full1660GB120GB300GB600GB900GB400GB1200GB
Freeze *1620GB40GB80GB200GB360GB160GB400GB
LoRA/GaLore/BAdam1616GB32GB64GB160GB240GB120GB320GB
QLoRA810GB20GB40GB80GB140GB60GB160GB
QLoRA46GB12GB24GB48GB72GB30GB96GB
QLoRA24GB8GB16GB24GB48GB18GB48GB

Full:这种方法表示对模型的所有参数进行完全训练。换句话说,模型中的所有参数都可以在训练过程中更新。这种方法通常需要大量的计算资源和显存,但可以获得最高的模型精度。
Freeze:这种方法表示冻结模型的一部分参数,仅训练特定层或参数。例如,冻结预训练模型的前几层,只训练最后几层或新增的层。这样做可以减少计算资源和显存的需求,同时也能在一定程度上提高训练速度,适用于在已有模型基础上进行微调(fine-tuning)的场景。
AMP:代表自动混合精度(Automatic Mixed Precision)。这是深度学习中的一种技术,通过使用混合精度计算来加速训练和减少内存使用。这涉及在训练过程中同时使用16位(半精度)和32位(单精度)浮点数。

目前,LLaMA-Factory库支持的训练模型如下:

型名模型大小默认模块Template
Baichuan27B/13BW_packbaichuan2
BLOOM560M/1.1B/1.7B/3B/7.1B/176Bquery_key_value-
BLOOMZ560M/1.1B/1.7B/3B/7.1B/176Bquery_key_value-
ChatGLM36Bquery_key_valuechatglm3
Command-R35B/104Bq_proj,v_projcohere
DeepSeek (MoE)7B/16B/67B/236Bq_proj,v_projdeepseek
Falcon7B/40B/180Bquery_key_valuefalcon
Gemma/CodeGemma2B/7Bq_proj,v_projgemma
InternLM27B/20Bwqkvintern2
LLaMA7B/13B/33B/65Bq_proj,v_proj-
LLaMA-27B/13B/70Bq_proj,v_projllama2
LLaMA-38B/70Bq_proj,v_projllama3
LLaVA-1.57B/13Bq_proj,v_projvicuna
Mistral/Mixtral7B/8x7B/8x22Bq_proj,v_projmistral
OLMo1B/7Bq_proj,v_proj-
Phi-1.5/21.3B/2.7Bq_proj,v_proj-
Phi-33.8Bqkv_projphi
Qwen1.8B/7B/14B/72Bc_attnqwen
Qwen1.5 (Code/MoE)0.5B/1.8B/4B/7B/14B/32B/72B/110Bq_proj,v_projqwen
StarCoder23B/7B/15Bq_proj,v_proj-
XVERSE7B/13B/65Bq_proj,v_projxverse
Yi (1/1.5)6B/9B/34Bq_proj,v_projyi
Yuan2B/51B/102Bq_proj,v_projyuan

支持的训练方法如下:

全参数训练部分参数训练LoRAQLoRA
预训练
指令监督微调
奖励模型训练
PPO 训练
DPO 训练
ORPO 训练

想学习大模型的小伙伴,不妨来试试吧!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/594944
推荐阅读
相关标签
  

闽ICP备14008679号