赞
踩
最近了解了下些常见的推理和加速方案:
1、量化方案:
2、Attention加速方案:
3、内存层面:
4、硬件层面:
5、模型层面:
可能不少遗漏,欢迎各位大佬补充在评论区~
部分经验总结 & 问题:
1、compile 整个模型后的模型确实更快了,如果只compile attention部分加速不大,因为compile优化的空间并不大
2、投机采样测试过程中发现多卡推理 int4 模型出现报错,int8模型没有问题,这个目前没空看了
3、量化确实会带来速度的巨大提升,但是模型效果截图不太方便,效果确实降低了一些
4、AWQ量化后的千问7B模型,效果巨差,暂不确定问题在哪,目测了效果
不同cuda_kernel 的测试结果: default vs sdp-math vs sdp-flash vs sdp-efficient:
vllm & compile测试后的结果:
公众号"小晨的AI工作室"回复: "vllm_test" 获得无水印原图~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。