当前位置:   article > 正文

高性能推理框架漫谈

高性能推理框架漫谈

传统模型分布式推理框架

  • Tensorflow serving
  • Pytorch Serving
  • Triton Server

大语言模型的推理框架

在这里插入图片描述

  • 其中, VLLM 后端接入了Ray 框架, 作为调度请求的分发处理;
  • 除此之外,还包括Nvidia 最新推出的TensorRT-LLM, 增加了对LLM 的支持

目前应用比较多的是VLLM 和DeepSpeed, 关于二者的比较:
在这里插入图片描述

Reference

  • https://medium.com/@plthiyagu/comparing-llm-serving-frameworks-llmops-f02505864754
  • https://blog.vllm.ai/2023/11/14/notes-vllm-vs-deepspeed.html
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/752436
推荐阅读
相关标签
  

闽ICP备14008679号