赞
踩
参考:
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档
这里使用的cuda版本是11.4,tesla T4卡
加速原理:
PagedAttention,主要是利用kv缓存
注意更改:–dtype=half
python -m vllm.entrypoints
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。