当前位置: article > 正文

大模型推理：vllm多机多卡分布式本地部署_vllm 多卡部署

作者：天景科技苑 | 2024-08-21 20:46:05

踩

vllm 多卡部署

单台机器GPU资源不足以执行推理任务时，一个方法是模型蒸馏量化，结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理，资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架，也适用于单机多卡，单机单卡，这里不过多赘述。

我的需求是Ubuntu中部署70B+大模型，不量化，两台机器，每台机器4张4090 24G显卡，采用docker环境，在稍微调研了一些支持多级多卡、支持serving部署的工具后，最终选择vllm部署，主要原因是看着简单，主流的开源LLM都支持且提供OpenAI接口访问。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】