模型部署——如何提高大模型的线上推理速度_大模型推理加速

作者：你好赵伟 | 2024-08-21 20:52:37

踩

大模型推理加速

一、模型部署框架有哪些？

一些常见的部署框架和工具包括 TensorFlow Serving、ONNX Runtime、OpenVINO、TensorRT、TorchScript 等。
例如通过onnxruntime框架优化，可以在原有数据上面测试模型推理速度提升7倍。

剪枝:剪枝是一种通过去除模型中一些不必要的连接或神经元来减小
模型大小的技术。
蒸馏:蒸馏是一种通过使用学生模型来模拟预训练教师模型的行为来减小模型大小的技术。通常情况下，学生模型由更小的神经网络或线性模型组成。
量化:量化是一种将预训练模型中的权重从浮点数转换为低位数的技术。通常情况下，量化的精度是 8 位或更低。量化可以大大减少模型的存储空间和计算量，但可能会对模型的性能产生一定的影响。
权重矩阵分解:使用包括 SVD 等矩阵分解方法对预训练模型的 FFN 层的权重矩阵进行分解，从而减少 Attention 层的参数量，提高模型的效率。
模型参数共享:以 ALBERT 为例，模型的 Attention 层之间采用了权重共享的方式，从而减少了模型的参数量[27] 。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/1013313