Llama架构比不上GPT2？神奇token提升10倍记忆？

作者：盐析白兔 | 2024-08-12 21:31:50

踩

近日，朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3：知识的 Scaling Laws》用海量实验（50,000 条任务，总计 4,200,000 GPU 小时）总结了 12 条定律，为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。

一个 7B 规模的语言模型 LLM 能存储多少人类知识？如何量化这一数值？训练时间、模型架构的不同将如何影响这一数值？浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响？

作者首先指出，通过开源模型在基准数据集 (benchmark) 上的表现来衡量 LLM 的 scaling law 是不现实的。例如，LlaMA-70B 在知识数据集上的表现比 LlaMA-7B 好 30%，这并不能说明模型扩大 10 倍仅仅能在容量上提高 30%。如果使用网络数据训练模型，我们也将很难估计其中包含的知识总量。

再举个例子，我们比较 Mistral 和 Llama 模型的好坏之时，到底是他们的模型架构不同导致的区别

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】