赞
踩
4.19日凌晨正准备睡觉时,突然审稿项目组的文弱同学说:Meta发布Llama 3系列大语言模型了,一查,还真是
本文以大模型开发者的视角,基于Meta官方博客的介绍:Introducing Meta Llama 3: The most capable openly available LLM to date,帮你迅速梳理下LLama的关键特征,并对比上一个版本的LLama2,且本文后续,将更新用我司paper-review数据集微调llama3的训练过程
此次发布的Llama 3有两个版本:8B 和 70B。由于预训练和指令微调的加强,模型在推理、代码生成和指令跟踪等方面的能力得到比较大的提高,最终在多个榜单上超越Google的gemma 7B、Mistral 7B(当然了,我还是得说一句,榜单肯定能够说明一些东西,但不代表全部)
为了更好的评估llama3的性能,Meta开发了一套新的高质量人类评估集。该评估集包含 1,800 个prompt,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结
且为了防止模型在此评估集上过度拟合,即使Meta的建模团队也无法访问它(说白了,保证评估数据集中的数据不被模型事先学到)
下图显示了Meta针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果(compared to competing models of comparable size in real-world scenarios,即PK的开源模型也都是70B左右的大小)
且llama3的预训练模型这些榜单上PK同等规模的其他模型时,亦有着相对突出的表现
和Llama 2一样,Llama 3 继续采用相对标准的decoder-only transformer架构,但做了如下几个关键的改进
Llama 3 使用具有 128K tokens的tokenizer
相当于,一方面,分词器由 SentencePiece 换为了 Tiktoken,与 GPT4 保持一致,可以更有效地对语言进行编码
二方面,Token词表从LLAMA 2的32K拓展到了128K
基准测试显示,Tiktoken提高了token效率,与 Llama 2 相比,生成的token最多减少了 15%
为了提高推理效率,Llama 3在 8B 和 70B 都采用了分组查询注意力(GQA),根据相关实验可以观察到,尽管与 Llama 2 7B 相比,模型的参数多了 1B,但改进的分词器效率和 GQA 有助于保持与 Llama 2 7B 相同的推理效率
值得指出的是,上一个版本的llama 2的34B和70B才用到了GQA
在 8,192 个token的序列上训练模型,且通过掩码操作以确保自注意力不会跨越文档边界
这点相比llama 2是一个进步,毕竟llama 2的上下文长度还只有4K,所以我司审稿项目组在用平均长度8.5K的paper-review数据集去微调llama2时,不得已必须用上longlora/longqlora这类扩展长度的技术
做大模型开发的都知道,数据的重要性不言而喻,为进一步提高模型的性能
为了有效利用 Llama 3 模型中的预训练数据,他们投入了大量精力来扩大预训练规模。具体来说
为下游基准评估制定了一系列详细的缩放法则。这些缩放法则使我们能够选择最佳的数据组合,且使我们能够在实际训练模型之前预测最大模型在关键任务上的性能(例如,在 HumanEval 基准上评估的代码生成 - 见上文)
比如在 Llama 3 的开发过程中,对缩放行为进行了一些新的观察。例如,虽然 8B 参数模型的 Chinchilla 最佳训练计算量对应于约 200B 个token,但发现即使在模型建立之后,模型性能仍在继续提高接受了两个数量级以上的数据训练
在对多达 15T token进行训练后,8B 和 70B 参数模型都继续以对数线性方式改进。较大的模型可以用较少的训练计算来匹配这些较小模型的性能,但较小的模型通常是首选,因为它们在推理过程中效率更高
为了训练Llama 3的400B的版本,Meta结合了三种类型的并行化:数据并行化、模型并行化和管道并行化(_关于这三种并行训练方法的介绍,
当同时在 16K GPU 上进行训练时,可实现每个 GPU 超过 400 TFLOPS 的计算利用率,当然,最终在两个定制的24K GPU 集群上进行了训练
且
为了最大限度地延长 GPU 的正常运行时间,开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。还极大地改进了硬件可靠性和静默数据损坏检测机制
并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进使总体有效培训时间超过 95%
综合起来,这些改进使 Llama 3 的训练效率比 Llama 2 提高了约三倍
为了充分释放预训练模型在聊天用例中的潜力,我们还对指令调整方法进行了创新。我们的后训练方法是:监督微调SFT、拒绝采样、近端策略优化PPO,和直接策略优化DPO的组合
为了方便让开发者负责任地部署llama3,他们采用了一种新的系统级方法
且指令微调模型已经通过内部和外部的努力进行了安全红队(测试)
红队方法利用人类专家和自动化方法来生成对抗性提示,试图引发有问题的响应。例如,我们应用全面的测试来评估与化学、生物、网络安全和其他风险领域相关的滥用风险
所有这些努力都是迭代的,并用于为正在发布的模型进行安全微调提供信息。可以在模型卡中详细了解我们的努力
更多参见负责任使用指南(RUG),且正如在 RUG 中概述的那样,Meta建议根据适合应用程序的内容指南检查和过滤所有输入和输出
Llama 3 很快将在所有主要平台上提供,包括云提供商、模型 API 提供商等等,更多见:Getting started with Meta Llama
有关如何利用所有这些功能的示例,请查看Llama Recipes,其中包含所有的开源代码,这些代码可用于从微调到部署再到模型评估的所有内容
llama 3中最大的模型有超过 400B 个参数,不过这个模型仍在训练中(后续,Meta将发布多个具有新功能的模型,包括多模态、以多种语言交谈的能力、更长的上下文窗口和更强的整体功能。且后续还将发布一份详细的研究论文)
HyperWriteAI 的 CEO Matt Shumer在其推特主页(https://twitter.com/mattshumer_/status/1782576964118675565)上宣布,他自己将 Llama-3-8B 的上下文窗口翻了一番(8k→16K):mattshumer/Llama-3-8B-16K (不过可惜不是instruct模型)
以下是来自huggingface的简介
我一开始还挺好奇,他到底用的啥技术,深入一了解,原来所用的技术来自国外的一家AI初创公司Gradient AI,且他们也在不断把LLama的长度拉长
把LLama3的长度扩展到16K的具体实现步骤如下
首先,微调得到一个加长版的模型
如本部分开头提到的,“mattshumer/Llama-3-8B-16K”的huggingface页面上有介绍到把rope_theta参数扩大到2倍(因为对于这个模型而言,长度从8K到16K扩展2倍,则对应参数扩大2倍,而Llama 3的rope_theta设置的50 0000,故rope_theta从50 0000扩大到100 0000)
而这个rope_theta参数其实指的是位置编码概念里的“base”,也就是以前大多模型设置为10000的那个参数,并不是旋转角度
“还记得RoPE的构造基础是Sinusoidal位置编码?可以改写为下面的公式「以下内容引用自此文的2.1.2节(注,dear friends,莫慌,如果不太理解是个啥意思,或者你想理解下述公式的来龙去脉,请详看此篇详解位置编码的文章 )
其中,,而这个10000这就是上面说的’base’ ”
而对base做放大是ntk-aware插值的操作, 故在当下这个把LLama 3的rope_theta从50 0000放大到100 0000的场景中,就是的ntk-aware插值
有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA
同样使用Mergekit,即通过下述代码可以把提取好的LoRA合并到其他同架构模型中了(代码地址为:https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac,作者为Eric Hartford,这段代码是一个Python脚本,用于将多个适配器模型合并到一个基础模型中,并且可以选择将合并后的模型推送到模型仓库或仅保存到本地目录。代码使用了`transformers`和`peft`库来处理模型和适配器,`torch`用于模型的加载和操作,`os`用于文件路径处理,`argparse`用于解析命令行参数)```
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel # 导入PEFT模型类
import torch # 导入PyTorch库
import os # 导入操作系统接口库
import argparse # 导入命令行解析库
def get_args():
parser = argparse.ArgumentParser() # 创建命令行解析器
parser.add_argument(“–base_model_name_or_path”, type=str) # 添加命令行参数:基础模型路径或名称
parser.add_argument(“–peft_model_paths”, type=str, nargs=‘+’, help=“List of paths to PEFT models”) # 添加命令行参数:PEFT模型的路径列表
parser.add_argument(“–output_dir”, type=str) # 添加命令行参数:输出目录
parser.add_argument(“–device”, type=str, default=“cpu”) # 添加命令行参数:设备类型,默认为CPU
parser.add_argument(“–push_to_hub”, action=“store_true”) # 添加命令行参数:是否推送到Hugging Face模型中心
parser.add_argument(“–trust_remote_code”, action=“store_true”) # 添加命令行参数:是否信任远程代码
return parser.parse_args() # 解析命令行输入的参数
def main():
args = get_args() # 获取命令行参数
if args.device == ‘auto’: # 自动设备映射
device_arg = {‘device_map’: ‘auto’}
else:
device_arg = {‘device_map’: {“”: args.device}} # 指定设备映射
print(f"Loading base model: {args.base_model_name_or_path}") # 打印加载基础模型的信息 base_model = AutoModelForCausalLM.from_pretrained( args.base_model_name_or_path, return_dict=True, torch_dtype=torch.float16, trust_remote_code=args.trust_remote_code, **device_arg ) # 加载基础模型 model = base_model # 将基础模型赋值给model变量 for peft_model_path in args.peft_model_paths: # 遍历所有PEFT模型路径 print(f"Loading PEFT: {peft_model_path}") # 打印加载PEFT模型的信息 model = PeftModel.from_pretrained(model, peft_model_path, **device_arg) # 加载PEFT模型 print(f"Running merge_and_unload for {peft_model_path}") # 打印正在合并和卸载模型的信息 model = model.merge_and_unload() # 合并并卸载模型 tokenizer = AutoTokenizer.from_pretrained(args.base_model_name_or_path) # 加载分词器 if args.push_to_hub: # 如果指定推送到模型中心 print(f"Saving to hub ...") # 打印保存到模型中心的信息 model.push_to_hub(f"{args.output_dir}", use_temp_dir=False) # 推送模型到模型中心 tokenizer.push_to_hub(f"{args.output_dir}", use_temp_dir=False) # 推送分词器到模型中心 else: model.save_pretrained(f"{args.output_dir}") # 保存模型到指定目录 tokenizer.save_pretrained(f"{args.output_dir}") # 保存分词器到指定目录 print(f"Model saved to {args.output_dir}") # 打印模型保存的路径
if name == “main”:
main()
// 待更
刚开始阿荀因为rope_theta这个取名
误把这个参数曲解为RoPE概念中的“旋转角度theta”,而如果是按照位置插值的思路,要扩展长度理当是缩小旋转角度而不是放大才对,所以就去看这个参数具体在代码中是负责什么部分
发现是参数赋值进去以后,是RoPE概念中的“base”(而非RoPE概念中的旋转角度theta),从而也就顺理成章的得把base扩大到2倍,对应到具体的方法中,就是ntk-aware插值(对base做放大)```
class LlamaRotaryEmbedding(nn.Module):
def init(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
super().init() # 调用父类的初始化函数
self.scaling_factor = scaling_factor # 缩放因子,用于调整位置编码的尺度
self.dim = dim # 嵌入的维度
self.max_position_embeddings = max_position_embeddings # 最大位置嵌入数量
self.base = base # 计算频率的基数
# 计算逆频率,用于生成位置嵌入的频率部分 inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(device) / self.dim)) self.register_buffer("inv_freq", inv_freq, persistent=False) # 将逆频率注册为模型的一个缓冲区 # 为了向后兼容,注册余弦和正弦的缓存值 self.max_seq_len_cached = max_position_embeddings # 缓存的最大序列长度 t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.int64).type_as(self.inv_freq) # 生成位置序列 t = t / self.scaling_factor # 应用缩放因子 freqs = torch.outer(t, self.inv_freq) # 计算每个位置的频率 # 与原始论文不同,这里使用了不同的排列方式以获得相同的计算结果 emb = torch.cat((freqs, freqs), dim=-1) # 拼接频率以创建嵌入 # 注册余弦和正弦值的缓存,将它们转换为默认数据类型 self.register_buffer("_cos_cached", emb.cos().to(torch.get_default_dtype()), persistent=False) self.register_buffer("_sin_cached", emb.sin().to(torch.get_default_dtype()), persistent=False)
而对于上面的这行代码
# 计算逆频率,用于生成位置嵌入的频率部分
inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(device) / self.dim))
其所对应的公式表达则是
![\text { inv } \_ \text {freq }=\frac{1.0}{\text { base }\left(\frac{\text { torch.arange }(0, \text { dim }, 2)}{\text { dim }}\right)}](https://latex.csdn.net/eq?%5Ctext%20%7B%20inv%20%7D%20%5C_%20%5Ctext%20%7Bfreq%20%7D%3D%5Cfrac%7B1.0%7D%7B%5Ctext%20%7B%20base%20%7D%5Cleft%28%5Cfrac%7B%5Ctext%20%7B%20torch.arange%20%7D%280%2C%20%5Ctext%20%7B%20dim%20%7D%2C%202%29%7D%7B%5Ctext%20%7B%20dim%20%7D%7D%5Cright%29%7D)
其中
base 是一个基数常数,例如10000 (**_而上面说了,LLama 3设置的50万_**)
dim 是嵌入的维度总数
torch.arange(0,dim,2)则代表生成一个从0开始,步长为2,到 dim(但不包括dim)的序列
再后来,Gradient AI再通过类似的方式把rope_theta继续放大,使得其长度可以达到100万,具体实现方法是
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。