当前位置:   article > 正文

挑战性能极限小显卡大作为,教你如何在有限资源下运行大型深度学习模型,GPU显存估算并高效利用全攻略!_大模型训练显存估算

大模型训练显存估算

1.了解大模型参数

1.1 模型参数单位

“10b”、“13b”、“70b” 等术语通常指的是大型神经网络模型的参数数量。其中的 “b” 代表 “billion”,也就是十亿。表示模型中的参数量,每个参数用来存储模型的权重和偏差等信息。例如:

  • 10b” 意味着模型有大约 100 亿个参数。
  • “13b” 意味着模型有大约 130 亿个参数。
  • “70b” 意味着模型有大约 700 亿个参数。

例如:Meta 开发并公开发布的 Llama 2 系列大型语言模型 (LLM),这是一组经过预训练和微调的生成文本模型,参数规模从 70 亿(7b)700 亿(70b)不等。经过微调的 LLMs(称为 Llama-2-Chat)针对对话场景进行了优化。

  • meta-llama/Llama-2-7b-hf
  • meta-llama/Llama-2-13b-hf
  • meta-llama/Llama-2-70b-hf

输入 仅输入文本 输出 仅生成文本 模型架构 Llama 2 是一种使用优化的 Transformer 架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来适应人类对有用性和安全性的偏好。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/1008563
推荐阅读
相关标签