赞
踩
尽管上周Llama 3的发布不甚高调,但其表现相当惊艳。 短短的数日之间,Llama3-70B已经爬升到了Lmsys Leaderboard的第6名,与数个T级别的大模型并驾齐驱。
而更令人惊讶的是Llama3-8B,一个只有8B参数的“轻量级”大模型,也已经攀升到榜单的第14位,超越了GPT-3.5-Turbo、Mistral-Next和Qwen1.5-32B等一系列主流商业或开源大模型(图1):
图1: Llama3-8B在Leaderboard上位列前茅
所以,排行榜之外,Llama3-8B在实际业务中到底有多强?
“小强” Llama3-8B
结合业务实践,我们的测评设计如下:1)分类任务(基础和高级),用于“路由”机制、用户请求和响应分类;2)决策任务(动态决策树构建和追问体系),用于基于语义切割文档和建立追问体系;3)In-context Learning(Few-shot),无需调优的情况下掌握新的技能;4)推荐任务,建立结合上下文的推荐机制。测评结果如下(图2):
图2: 测评结果
总而言之,Llama3-8B表现出了“跨越阶级”的能力:
这也就意味Llama3-8B可以轻松“平趟”同量级大模型市场,并且在百亿级大模型市场一战。对我们的应用而言,Llama3-8B是足以替代GPT-3.5-Turbo的“小强”般的存在。
从Meta提供的报告来看,相较于Llama2,Llama3在技术架构上并未进行颠覆性的调整,但Llama3-8B为何这么强?
而其背后可能的原因是:超配的FLOPs规模。
超配的FLOPs规模
Andrej Karpathy 认为,如果只能用一个数字来描述大模型的“强度”,那么结合参数规模和训练时长的FLOPs规模将是一个理想的指标。
而根据Scaling Law,我们可以使用公式 FLOPs = 6*D*N (其中D代表数据规模、N代表参数规模)来推测大模型的FLOPs规模。Llama3-8B的数据规模达到了15T,那么其FLOPs规模至少为:
FLOPs = 6 * 15T * 8B = 7.2E23
对于8B参数的Llama3-8B而言,7.2E23这个数字绝对是“超配”了,其FLOPs规模不仅仅超越了所有的7B大模型,例如Gemma-7B和Mistral 7B,也超越诸多百亿级别大模型,例如Yi-34B、Reka-Flash和Mistral 8X7B(图3,如红色竖线所示):
图3: Llama3-8B在FLOPs规模上超越了众多百亿级大模型
如果在上述坐标系中增加Leaderboard排名,我们会发现超配的FLOPs规模也带来了更强的大模型(图4),正如我们的测试结果所示,Llama3-8B是“跨越阶级”般的存在:
图4: Llama3-8B的Leadboard排名14,不仅仅甩掉了所有同级别的大模型,更是超越了Mistral 8X7B(31位)和Yi-34B(29位)
Llama3-8B的表现也部分颠覆了DeepMind的Chinchilla-optimal理论。在该理论中,参数和数据的黄金比例为1 :20~25,而更高比例的数据规模有可能造成“Diminishing Returns”。直到最近,众多主流大模型和超大模型依然遵从这个比例,例如Claude3 Opus和Gemini 1.5 Pro的比例是1:20,而Grok-1.5的比例是1:19。而Llama已经将这个指标推至1:1875(图5):
图5: 最右侧红点为Llama3-8B
但尽管Llama3-8B的FLOPs规模已经增加了两个数量级(9.6E21 ->7.2E23 ),Meta仍然表示该模型还有进一步提升的空间。也难怪Andrej Karpathy抱怨当前市场上的大模型呈百倍甚至千倍“Undertrained”。
基于良好的效果,Llama3-8B的超配实践也许在短期内会延展到主流大模型领域。这不,HuggingFace上已经出现了15T数据集FineWeb。我们也期待着各类Overtrained主流大模型的出现。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。