LLM大模型推理加速 vLLM；docker推理大模型；Qwen vLLM使用案例；模型生成速度吞吐量计算_vllm qwen

作者：我家自动化 | 2024-03-01 17:08:28

踩

vllm qwen

参考：
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档

这里使用的cuda版本是11.4，tesla T4卡
在这里插入图片描述

加速原理：
PagedAttention，主要是利用kv缓存
在这里插入图片描述

注意更改：–dtype=half

python -m vllm.entrypoints

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/175531