当前位置:   article > 正文

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

the era of 1-bit llms

The Era of 1-bit LLMs: All Large Language Models Are in 1.58 Bits

相关链接:arxivgithub
关键字1-bit LLMsBitNet模型压缩能耗效率模型性能

image.png

摘要

近期的研究,例如BitNet,正在为1-bit大型语言模型(LLMs)的新时代铺平道路。在本工作中,我们介绍了一个1-bit LLM的变体——BitNet b1.58,其中LLM的每一个参数(或称为权重)均为三值{-1, 0, 1}。BitNet b1.58在复杂度和末端任务性能上与同等模型大小和训练令牌的全精度(即FP16或BF16)Transformer LLM匹敌,同时在延迟、内存、吞吐量和能源消耗等方面成本更低。更深层次地,1.58-bit LLM定义了一个新的规模法则和训练新一代LLMs的配方,这些模型既高性能又具成本效益。此外,它还启用了一种新的计算范式,并为设计优化1-bit LLM的专用硬件打开了大门。

核心方法

BitNet b1.58的关键方法包括:

  • 量化函数:采用绝对值均值(absmean)量化函数对权重进行约束至{-1, 0, +1},激活采用与BitNet相似的量化方式进行处理,将激活缩放到[-Q,Q]以拜托零点量化。
  • LLaMA-alike组件:模型结构采用LLaMA相似的组件,如RMSNorm、SwiGLU和rotary embedding,使得BitNet b1.58容易集成到流行的开源软件。
  • 从头开始训练:使用1.58-bit权重和8-bit激活,从头开始训练。

实验说明

效果对比

我们使用markdown表格形式来表示实验结果,以便于观察比较:

ModelsSizeMemory (GB)↓Latency (ms)↓PPL↓
LLaMA LLM700M2.08 (1.00x)1.18 (1.00x)12.33
BitNet b1.58700M0.80 (2.60x)0.96 (1.23x)12.87
LLaMA LLM1.3B3.34 (1.00x)1.62 (1.00x)11.25
LLaMA LLM1.3B1.14 (2.93x)0.97 (1.00x)11.29
LLaMA LLM3B7.89(1.00x)5.07(1.00x)10.04
BitNet b1.583B2.22(3.55x)1.87(2.71x)9.91
BitNet b1.583.9B2.38(3.32x)2.11(2.40x)9.62

表格1:BitNet b1.58与LLaMA LLM在不同模型大小下的复杂度及效果对比。

ModelsSizeARC-eARC-cHellaSwagWinograndePIQAOpenbookQABoolQAvg.
LLaMA LLM700M54.723.037.060.020.268.954.845.5
BitNet b1.58700M51.821.435.158.220.068.155.244.3
LLaMA LLM1.3b56.923.538.559.121.670.053.946.2
BitNet b1.581.3B54.924.237.756.719.668.855.845.4
LLaMA LLM3B62.125.643.361.824.672.158.249.7
BitNet b1.583B61.428.342.961.526.671.559.350.2
BitNet b1.583.9B64.228.744.263.524.273.260.551.2

表格2:BitNet b1.58与LLaMA LLM在不同终端任务中的零样本准确率对比。

这些实验中,模型在RedPajama数据集上预训练了1000亿个令牌,并在多种语言任务中评估了零拍照性能。此外,比较了BitNet b1.58和LLaMA LLM在不同模型大小下的GPU运行内存和延迟,并测量了吞吐量、能源消耗。

效率对比

image.png
image.png
图2:解码延迟与内存消耗因模型大小而异

ModelsSizeMax Batch SizeThroughput (tokens/s)
LLaMA LLM70B16 (1.0x)333 (1.0x)
BitNet b1.5870B176 (11.0x)2977 (8.9x)
表格3:吞吐率与batch_size的比较

结论

BitNet b1.58开辟了一条新的关于模型性能与推理成本的规模法则。我们可以根据结果确定,在延迟、内存使用和能耗方面,13B BitNet b1.58比3B FP16 LLM更高效,30B BitNet b1.58比7B FP16 LLM更高效,70B BitNet b1.58比13B FP16 LLM更高效。2T令牌的训练显示,BitNet b1.58在所有终端任务上优于3B模型,显示出1.58-bit LLM也具有强大的泛化能力。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/519272
推荐阅读
相关标签
  

闽ICP备14008679号