当前位置:   article > 正文

LMDeploy 推理部署工具

LMDeploy 推理部署工具

一. 大模型部署面临的挑战

1. 计算量巨大

        大模型参数量巨大,前向推理时需要进行大量计算。

2. 内存开销巨大

        大模型在推理过程中,以FP16为例,20B模型仅加载参数就需40G+显存,175B模型更是需要350G+显存。同时在推理过程中,为避免重复计算,会将计算注意力得到的KV进行缓存。

        而目前的最大的GPU的显存仅为80GB。

3. 访存瓶颈

        大模型推理时”访问密集“型任务。目前硬件计算数据"远快于”显存带宽,存在严重的访存性能瓶颈。

二. LMDeploy

1. 简介

        LMDeploy由MMDeploy 和 MMRazor 团队联合开发,时涵盖了LLM任务的全套轻量化,部署和服务解决方案。核心功能包括高效推理,可靠量化,便捷服务和有状态推理。

2. 核心功能

        LMDeploy主要提供 模型高效推理,量化压缩,服务化部署等核心功能。

3. 支持的模型

        不仅仅支持InternLM,而且支持目前大部分的开源模型,包括国外的LLama,国内的Qwen, baichuan等。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/450278
推荐阅读
相关标签
  

闽ICP备14008679号