当前位置:   article > 正文

Llama3-8B为什么这么强?_llama3-8b模型的排名

llama3-8b模型的排名

尽管上周Llama 3的发布不甚高调,但其表现相当惊艳。 短短的数日之间,Llama3-70B已经爬升到了Lmsys Leaderboard的第6名,与数个T级别的大模型并驾齐驱。

而更令人惊讶的是Llama3-8B,一个只有8B参数的“轻量级”大模型,也已经攀升到榜单的第14位,超越了GPT-3.5-TurboMistral-NextQwen1.5-32B等一系列主流商业或开源大模型(图1):
 

1: Llama3-8BLeaderboard上位列前茅

所以,排行榜之外,Llama3-8B在实际业务中到底有多强?

小强” Llama3-8B

结合业务实践,我们的测评设计如下:1)分类任务(基础和高级),用于“路由”机制、用户请求和响应分类;2)决策任务(动态决策树构建和追问体系),用于基于语义切割文档和建立追问体系;3)In-context LearningFew-shot,无需调优的情况下掌握新的技能;4)推荐任务,建立结合上下文的推荐机制。测评结果如下(图2):

2: 测评结果

总而言之,Llama3-8B表现出了“跨越阶级”的能力:

  • 首先,其在各项任务中远超上一代同类模型Llama2-7B
  • 其次,其也显著超越了所有同量级大模型,例如Gemma-7B;
  • 最后,其表现基本上与百亿级大模型持平,例如Mixtral 8X7B。

这也就意味Llama3-8B可以轻松同量级大模型市场,并且在百亿级大模型市场一战。对我们的应用而言,Llama3-8B是足以替代GPT-3.5-Turbo小强般的存在

从Meta提供的报告来看,相较于Llama2,Llama3在技术架构上并未进行颠覆性的调整,但Llama3-8B为何这么强?

而其背后可能的原因是:FLOPs规模


 

FLOPs

Andrej Karpathy 认为,如果只能用一个数字来描述大模型的强度,那么结合参数规模和训练时长的FLOPs规模将是一个理想的指标

而根据Scaling Law,我们可以使用公式 FLOPs = 6*D*N (其中D代表数据规模、N代表参数规模)来推测大模型的FLOPs规模。Llama3-8B的数据规模达到了15T,那么其FLOPs规模至少为:

FLOPs = 6 * 15T * 8B = 7.2E23

对于8B参数的Llama3-8B而言,7.2E23这个数字绝对是超配,其FLOPs规模不仅仅超越了所有的7B大模型,例如Gemma-7B和Mistral 7B,也超越诸多百亿级别大模型,例如Yi-34B、Reka-Flash和Mistral 8X7B(图3,如红色竖线所示):

图3: Llama3-8BFLOPs规模上超越了众多百亿级大模型

如果在上述坐标系中增加Leaderboard排名,我们会发现超配的FLOPs规模也带来了更强的大模型(图4),正如我们的测试结果所示,Llama3-8B是“跨越阶级”般的存在:

4: Llama3-8BLeadboard排名14,不仅仅甩掉了所有同级别的大模型,更是超越了Mistral 8X7B31位)和Yi-34B29位)

Llama3-8B的表现也部分颠覆了DeepMind的Chinchilla-optimal理论。在该理论中,参数和数据的黄金比例为1 2025,而更高比例的数据规模有可能造成“Diminishing Returns”。直到最近,众多主流大模型和超大模型依然遵从这个比例,例如Claude3 Opus和Gemini 1.5 Pro的比例是1:20,而Grok-1.5的比例是1:19。Llama已经将这个指标推至1:1875(图5):

5: 最右侧红点为Llama3-8B

但尽管Llama3-8B的FLOPs规模已经增加了两个数量级(9.6E21 ->7.2E23 ),Meta仍然表示该模型还有进一步提升的空间。也难怪Andrej Karpathy抱怨当前市场上的大模型呈百倍甚至千倍“Undertrained”。

基于良好的效果,Llama3-8B的超配实践也许在短期内会延展到主流大模型领域。这不,HuggingFace上已经出现了15T数据集FineWeb。我们也期待着各类Overtrained主流大模型的出现。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号