当前位置:   article > 正文

LLaMa3.1 模型训练四十问

LLaMa3.1 模型训练四十问

\1. Q: LLaMa3.1上下文窗口多大?

A: 128K Token; 标准预训练阶段8K Token; 长上下文调整预训练阶段 128K Token(提升16倍);

2. Q: LLaMa3.1 Token编码方式?

A: BPE + RoPE(500,000)

3. Q: LLaMa3.1 语料库词库大小?

A: 15T 语料库 (LLaMa2 只有1.8T)

4. Q: LLaMa3.1 最大模型参数量?

A: 405B

5. Q: LLaMa3.1 包含哪几种多媒体的模态

A: 图像、语音、视频

6. Q: 语料去重做了哪些工作?

A: URL去重,文档去重, 行/句子去重。

7. Q: 语料去重用了哪些算法?

A: URL去重:最新页面URL链接

​ 文档去重:MinHash算法

​ 行句子去重:ccNet(3000万文档桶中出现6次)

8. Q: 语料清洗做了哪些工作?

A: 去重,个人身份信息(PII)过滤,成人内容过滤, 文本提取, 质量分类, 语言分类

9. Q: 语料清洗用了哪些算法?

A: 过滤: 重复N-Gram覆盖率, 敏感词过滤, KL散度近似语料过滤

​ 文本提取: 图片Alt属性提取, HTML Alt数学公式提取, 代码内容提取

​ 质量分类:fasttext, wiki引用识别,Roberta分类, LLaMa2分类, DistilRoberta分类

​ 语言分类:LLaMa2分类

10. Q: 高质量语料数据增强方式?

A: 知识分类重采样(最终实现各任务知识分类比例偏差较小)

​ 数据混配(最终实现 50%的通识文本 Token, 25%的数学和推理 Token, 17%的编码Token, 8%的多语种Token。 )

​ 公式代码退火(最终实现对标OpenAI的在标准测试集上的效果)

11. Q: *高质量语料数据增强的算法?*

A: 知识分类重采样:基于任务的文本标记, 基于标记重采样文本(例如, 降采样艺术,娱乐分类文本的比例)

​ 数据混配: 应用Scaling Law,采样数据集上做大量实验, 推测大数据集效果, 然后选定配比, 再进行关键基准测试集效果评定。

​ 公式代码退火:

12. Q: LLaMa3.1激活函数选择

A: SwiGLU,

13. Q: *LLaMa3.1模型大小是如何定的?*

A: 根据Scaling law, 1)先定计算预算:6×10^18 FLOPs到10^22 FLOPs。 2)选择40M到16B参数进行预训练, 确定IsoFLOPs曲线,推算Validation Loss目标。3)固定2000步训练之后, 执行Cosine学习率调度调整。4)拟合ISOLoss Contours, 或者固定Loss拟合计算效率。

图片

5)根据(α, A) = (0 . 53 , 0 . 29), 16.55T tokens, 3.8×10^25 FLOPs的算力预算下, 最佳参数大小为 402B。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片

14. Q: *LLaMa3.1学习率调度调整用了什么策略*

A: 用了Consine学习率调度策略, 余弦衰减设置为峰值的0.1,

图片

图片

15. Q: *LLaMa3.1用了多少GPU?*

A: 16K的H100 GPU上进⾏训练(能耗 700W TDP,内存80GB HBM3)。

图片

16. Q: *LLaMa3.1训练硬件平台是什么?*

A: 服务器 Grand Teton AI服务器平台(8个GPU,2个CPU)

**图片

图片

图片

17. Q: *LLaMa3.1训练软件平台式什么?*

A: MAST平台(ML Application Scheduler on Twine), 主要围绕着提升GPU占用率, 以及满足一定按时间分割的特性做了调度优化。

图片

图片

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/945384
推荐阅读
相关标签