赞
踩
知识蒸馏:
让大、小模型最后一层输出尽可能接近。
学习的是最后一层的概率分布,但大模型不止最后一层,还有很多中间层。
主流是知识蒸馏,但需要多训练一个模型,成本更高。
把其中一些参数(矩阵)去掉,接近 0 的参数。
对于注意力层,定义重要性指标,去掉不重要的层。
把浮点数变成定点数。
主流框架都支持。
相邻矩阵共享同一套参数,原先相邻矩阵参数都不同。
用一小维代替整个参数矩阵。
找更好的神经网络配置,比如加卷积层、找更好的非线性函数、注意力机制优化等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。