【LM】轻量化BERT

作者：AI数据灵魂 | 2024-01-30 14:50:33

踩

【LM】轻量化BERT

1.AlBert

通过矩阵分解、共享参数来压缩BERT模型，压缩比主要由共享参数这个策略贡献。从模型参数的角度，AlBert相比BERT压缩了9倍；从inference的计算量的角度，AlBert与相比BERT没有本质的差异 albert/hugging face link。

通过蒸馏方式压缩BERT模型，预训练阶段，将BERT-base作为teacher, 产生训练DistillBert的soft target，与BERT相比，DistillBert在模型参数和inference的时间上都是BERT的60% ，效果是BERT的96%。distillbert。

同样是通过蒸馏方式压缩模型。在预训练和精调阶段，均采用蒸馏手段。与BERT相比模型参数量减少7.5倍，inference速度提升9.4倍，效果是BERT的96.8%，压缩比和效果优于DistillBert hugging face link。

应用bottleneck思想，在保证层数不变的情况下，参数压缩了4.3倍的参数，inference速度提升5.5倍。仅在预训练阶段蒸馏，除了蒸馏中间层结果外，还蒸馏Attention矩阵。效果优于DistillBert、TinyBERT。

只蒸馏最后一层self-attention中的Q-K attention矩阵以及Value矩阵。效果比DistillBert、TinyBERT要好。inference速度是BERT的一半，参数量是BERT的60%，目前还没有中文开源的预训练模型。
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/46995