挑战性能极限小显卡大作为，教你如何在有限资源下运行大型深度学习模型，GPU显存估算并高效利用全攻略！_大模型训练显存估算

作者：煮酒与君饮 | 2024-08-20 20:07:16

踩

大模型训练显存估算

“10b”、“13b”、“70b” 等术语通常指的是大型神经网络模型的参数数量。其中的 “b” 代表 “billion”，也就是十亿。表示模型中的参数量，每个参数用来存储模型的权重和偏差等信息。例如：

例如：Meta 开发并公开发布的 Llama 2 系列大型语言模型 (LLM)，这是一组经过预训练和微调的生成文本模型，参数规模从 70 亿(7b)到 700 亿(70b)不等。经过微调的 LLMs（称为 Llama-2-Chat）针对对话场景进行了优化。

输入仅输入文本输出仅生成文本 模型架构 Llama 2 是一种使用优化的 Transformer 架构的自回归语言模型。调整后的版本使用监督微调（SFT）和带有人类反馈的强化学习（RLHF）来适应人类对有用性和安全性的偏好。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/1008563