赞
踩
通过矩阵分解、共享参数来压缩BERT模型,压缩比主要由共享参数这个策略贡献。从模型参数的角度,AlBert相比BERT压缩了9倍;从inference的计算量的角度,AlBert与相比BERT没有本质的差异 albert/hugging face link。
通过蒸馏方式压缩BERT模型,预训练阶段,将BERT-base作为teacher, 产生训练DistillBert的soft target,与BERT相比,DistillBert在模型参数和inference的时间上都是BERT的60% ,效果是BERT的96%。distillbert。
同样是通过蒸馏方式压缩模型。在预训练和精调阶段,均采用蒸馏手段。与BERT相比模型参数量减少7.5倍,inference速度提升9.4倍,效果是BERT的96.8%,压缩比和效果优于DistillBert hugging face link。
应用bottleneck思想,在保证层数不变的情况下,参数压缩了4.3倍的参数,inference速度提升5.5倍。仅在预训练阶段蒸馏,除了蒸馏中间层结果外,还蒸馏Attention矩阵。效果优于DistillBert、TinyBERT。
只蒸馏最后一层self-attention中的Q-K attention矩阵以及Value矩阵。效果比DistillBert、TinyBERT要好。inference速度是BERT的一半,参数量是BERT的60%,目前还没有中文开源的预训练模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。