LLaMa3.1 模型训练四十问

作者：天景科技苑 | 2024-08-08 01:14:26

踩

LLaMa3.1 模型训练四十问

\1. Q: LLaMa3.1上下文窗口多大？

A: 128K Token；标准预训练阶段8K Token；长上下文调整预训练阶段 128K Token（提升16倍）；

2. Q: LLaMa3.1 Token编码方式？

A: BPE + RoPE(500,000)

3. Q: LLaMa3.1 语料库词库大小？

A: 15T 语料库（LLaMa2 只有1.8T）

4. Q: LLaMa3.1 最大模型参数量？

A: 405B

5. Q: LLaMa3.1 包含哪几种多媒体的模态

A: 图像、语音、视频

6. Q: 语料去重做了哪些工作？

A: URL去重，文档去重，行/句子去重。

7. Q: 语料去重用了哪些算法？

A: URL去重：最新页面URL链接

文档去重：MinHash算法

行句子去重：ccNet（3000万文档桶中出现6次）

8. Q: 语料清洗做了哪些工作?

A: 去重，个人身份信息(PII)过滤，成人内容过滤，文本提取，质量分类，语言分类

9. Q: 语料清洗用了哪些算法？

A: 过滤：重复N-Gram覆盖率，敏感词过滤， KL散度近似语料过滤

文本提取：图片Alt属性提取， HTML Alt数学公式提取，代码内容提取

质量分类：fasttext, wiki引用识别，Roberta分类， LLaMa2分类， DistilRoberta分类

语言分类：LLaMa2分类

10. Q: 高质量语料数据增强方式？

A: 知识分类重采样（最终实现各任务知识分类比例偏差较小）

数据混配（最终实现 50%的通识文本 Token， 25%的数学和推理 Token， 17%的编码Token， 8%的多语种Token。）

公式代码退火（最终实现对标OpenAI的在标准测试集上的效果）

11. Q: *高质量语料数据增强的算法？*

A: 知识分类重采样：基于任务的文本标记，基于标记重采样文本（例如，降采样艺术，娱乐分类文本的比例）

数据混配：应用Scaling Law，采样数据集上做大量实验，推测大数据集效果，然后选定配比，再进行关键基准测试集效果评定。

公式代码退火：

12. Q: LLaMa3.1激活函数选择

A: SwiGLU，

13. Q: *LLaMa3.1模型大小是如何定的？*

A: 根据Scaling law， 1）先定计算预算：6×10^18 FLOPs到10^22 FLOPs。 2）选择40M到16B参数进行预训练，确定IsoFLOPs曲线，推算Validation Loss目标。3）固定2000步训练之后，执行Cosine学习率调度调整。4）拟合ISOLoss Contours, 或者固定Loss拟合计算效率。