赞
踩
大家好,欢迎来到《走近智算》,今天和大家分享Meta近期发布的参数量最大的开源大模型Llama 3.1。
本分享包括三部分内容,第一部分Llama 3.1的介绍;第二部分是从数据、模型结构、预训练和后训练的角度对模型的技术分析;第三部分是对大模型产业发展的思考。
首先我们通过官网来了解Llama 3.1模型的情况。Llama 3.1提供了8B的轻量级模型、70B的高成效比模型和405B的旗舰基础模型 3种参数规模的大模型,3个大模型都已经开放给用户下载。
在模型关键能力方面,展示了包括模型使用工具、多语言翻译、复杂场景推理及代码生成等功能。模型能根据用户Prompt,调用三方库处理CSV表格数据,生成图表;根据图文内容,把故事内容从英文翻译为西班牙语;根据用户的描述和需求,分析用户旅游时带的衣物是否足够;根据用户需求描述,生成迷宫程序代码等。
从官网提供的评测来看,各种Benchmark的得分都比较不错,尤其是70B模型,各方面的得分都保持了领先。不过这类评测,厂家在选择评测条件和基准时,会挑选对自家模型有利的条件,实际效果还有待市场的检验。
关于Llama 3.1模型的情况,我们这里做一个总结。Llama 3.1提供了8B、70B和405B 3种规格的版本,其中405B为目前最大的开源模型,其在部分评测场景得分超过了GPT4模型。模型的微调版本,使用SFT和DPO来对齐可用性和安全偏好。支持128K Token长上下文,能满足大部分复杂任务场景。支持多语言输入和输出,增加了模型通用性和适用范围。模型在解决复杂数学问题和内容生成方面的能力表现突出。
接下来,结合官网和论文,我们从数据、模型结构、预训练和后训练的角度对模型进行技术解读。
模型预训练使用了超过15万亿Token的数据,其中50%为常识知识、25%为数学和推理、17%为代码数据和任务、8%为多语言数据。同时支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语8种语言。模型微调使用了公开可用的指令数据集和超过2500万个高质量的合成数据。
Llama 3.1模型整体结构使用了传统的Transformer架构,但对部分算法进行了改造。归一化层使用了均方根归一化算法,简化了Layer Norm并降低了计算时间;改进了多头注意力机制,使用分组查询注意力GQA,在效率和模型表达能力间进行平衡;位置编码使用了旋转式位置编码RoPE,综合了绝对位置编码和相对位置编码的优点;使用SwiGLU作为前馈神经网络的激活函数,结合了Swish和GLU两种激活函数的特点。
介绍完了模型结构,我们再来梳理下预训练过程,Llama 3.1预训练过程分为4个步骤。
第1步是常规的预训练,通过大规模数据训练模型的生成能力。
第2步是在预训练的后期,采用长文本数据对长序列进行训练,从8K分6阶段逐渐扩展到128K,支持最大128K Token上下文窗口。
第3步是退火,预训练最后4000万个Token,线性地将学习率退火至0,同时保持上下文长度为128K,调整数据混合配比,增加数学、代码、逻辑等高质量训练数据。
最后一步是将退火期间得到的若干个模型权重的Checkpoint求平均值,得到最终的预训练模型。
接着再来看下模型的训练集群和并行训练的情况。Meta训练Llama 3.1 405B模型使用了1.6万张H100,并重点考虑并行策略和故障处理。训练过程综合使用了张量并行、流水线并行、上下文并行和数据并行4种并行模式。BF16混合精度下,GPU算力利用率约为38%至41%。
训练故障率方面,Llama 3.1训练集群的故障处理十分优秀,在54天的训练时间里,有超过90%的有效训练时间。整个训练共发生419次意外中断故障,其中与GPU硬件相关的故障约占78%。虽然有这么多故障,但得益于完善的自动化运维能力,大部分的故障都被系统自动处理了,整个训练过程中,只有3次故障需要人工介入。
后训练阶段,主要通过监督微调SFT、拒绝采样RS和直接偏好优化DPO来完善对话模型。
监督微调首先通过人工标注的数据训练奖励模型,用奖励模型来评价模型“问答对”数据的质量。
拒绝采样RS,是指对模型生成的问答对,使用奖励模型进行打分,选择得分高的结果作为SFT数据。
直接偏好优化DPO,是指让模型学习人工标注的Prompt、Good Answer、Bad Answer三元组数据,调整模型参数以鼓励模型输出Good Answer。
最后,我们来聊聊对大模型产业发展的思考。
第一个是对模型结构的思考。大模型是选择Transformer稠密模型还是MOE稀疏模型更好呢?其实它们各有优缺点,MOE结构的训练和推理成本更低,但是训练不够稳定,推理需要大内存存储模型参数;而Transformer结构在用户量大、请求多时,推理成本更高。这里需要注意的是,模型的效果和使用哪种结构没有直接关系。
第二个是数据枯竭的问题。当前大模型训练将很快用尽互联网上公开的可用数据,以后怎么办?其实不用担心,当前合成数据已经进入实用阶段,尤其是后训练阶段,合成数据已经成为主要训练数据,Llama 3.1和Gemma2也证明了SFT阶段,合成数据的质量并不比人工标注数据差。
最后一个是大模型能力上限的问题,随着Llama 3.1成为最大的开源大模型,未来模型效果还能继续提升吗,上限在哪里?我们认为Scaling Law还没有达到上限,通过扩大模型规模和增加数据规模,以及提高训练数据的质量和优化数据配比,未来模型的能力还能继续提升。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
保证100%免费
】我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。