赞
踩
prerequisite: 最强英文开源模型LLaMA架构探秘,从原理到源码
Meta AI于2023年7月19日宣布开源LLaMA模型的二代版本Llama2
,并在原来基础上允许免费用于研究和商用。
作为LLaMA的延续和升级,Llama2的
训练数据扩充了40%,达到2万亿token,并且可处理的上下文增倍,达到4096个token。整体finetuning过程使用了1百万人工标记数据。开源的基座模型包括7B
、13B
、70B
3个版本,并提供了对话增强版本的Llama chat
和代码增强版本的Code Llama
,供开发者和研究人员使用。
Llama 2和初代模型相比,仍然延续Transformer’s decoder-only架构,仍然使用Pre-normalization、SwiGLU激活函数、旋转嵌入编码(RoPE),区别仅在于前述的40%↑的训练数据、更长的上下文和分组查询注意力机制
(GQA, Grouped-Query Attention)。
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
引入GQA的主要目的是提升推理速度,这种注意力机制由transformer的Multi-head Attention简化而来,再辅以KV cache的checkpoint机制进一步提速。
如上图:
具体而言,Llama2使用了8组KV映射,即GQA-8,实测效果上接近MHA,推理速度上接近MQA,尽可能做到了效果和速度兼得。
Llama2在一众开源模型中遥遥领先。
笔者注:模型架构没有太大变化,GQA只是推理加速,但效果提升,那也就是说明主要得益于新增的那40%的数据。坦白讲,大模型阶段模型架构已经不那么重要了,可以保证一定的推理速度即可,效果上dataset is all you need。
但在闭源模型的比较上,Llama2仅领先PaLM,且仅能做到在MMLU
和GSM8K
两个数据集上接近GPT3.5,与PaLM-2-L和GPT-4相比,仍然落后不少。
下面我们来聊一聊llama-chat的训练流程,详见原技术论文,以下仅做流程概述:
Safety Reward Model
和Helpful Reward Model
,一个用于对人类偏好进行奖励建模,一个对安全合规进行奖励建模Helpful Reward
模型进行RLHF,基于Rejection Sampling和PPOSafety Reward Model
进行RLHF,也是基于Reject Sampling和PPO,实验证明,Safety RLHF能在不损害helpfulness的前提下有更好的长尾safety棒性重要的细节上:
两种RL算法的区别是:
Meta仅在最大的Llama2 70B
使用了Reject Sampling,其余模型仅使用了PPO。
2023年8月24日,Meta推出了面向代码的可商用代码大模型Code Llama,开源了3个版本7B/13B/34B。支持多种编程语言,包括Python、C++、Java、PHP、Typescript (Javascript)、C#和Bash。
训练流程如下图:
如图所示,包含3个分支模型,每个分支模型的第一步都是使用500B的token进行Code Training
和Infilling code training
训练集详情如下:
细节上:
模型效果对比上,神秘的unnatural版本在HumanEval的pass@1上领先GPT-3,接近于GPT-4(5%左右差距),其余部分明显领先PaLM系列和StarCoder系列模型:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。