赞
踩
本文主要探讨TGI的小兄弟 -TGI 基准测试工具。它能帮助我们超越简单的吞吐量指标,对 TGI 进行更全面的性能剖析,以更好地了解如何根据实际需求对服务进行调优并按需作出最佳的权衡及决策。如果你曾觉得 LLM 服务部署成本太高,或者你想对部署进行调优,那么本文很适合你!
TGIhttps://github.com/huggingface/text-generation-inference
TGI 基准测试工具https://github.com/huggingface/text-generation-inference/blob/main/benchmark/README.md
我将向大家展示如何轻松通过Hugging Face 空间进行服务性能剖析。你可以把获得的分析结果用于推理端点或其他相同硬件的平台的部署。
Hugging Face 空间https://hf.co/spaces
推理端点https://hf.co/inference-endpoints/dedicated
为了更好地理解性能剖析的必要性,我们先讨论一些背景信息。
大语言模型 (LLM) 从根子上来说效率就比较低,这主要源自其基于解码器的工作方式,每次前向传播只能生成一个新词元。随着 LLM 规模的扩大以及企业采用率的激增,AI 行业围绕优化手段创新以及性能提优技术做了非常出色的工作。
解码器的工作方式https://hf.co/learn/nlp-course/chapter1/6?fw=pt
采用率的激增https://a16z.com/generative-ai-enterprise-2024/
在 LLM 推理服务优化的各个方面,业界积累了数十项改进技术。各种技术层出不穷,如:Flash Attention、Paged Attention、流式响应、批处理改进、投机解码、各种各样的量化技术、前端网络服务改进,使用更快的语言(抱歉,Python
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。