当前位置:   article > 正文

TGI 基准测试

tgi 服务

本文主要探讨TGI的小兄弟 -TGI 基准测试工具。它能帮助我们超越简单的吞吐量指标,对 TGI 进行更全面的性能剖析,以更好地了解如何根据实际需求对服务进行调优并按需作出最佳的权衡及决策。如果你曾觉得 LLM 服务部署成本太高,或者你想对部署进行调优,那么本文很适合你!

  • TGIhttps://github.com/huggingface/text-generation-inference

  • TGI 基准测试工具https://github.com/huggingface/text-generation-inference/blob/main/benchmark/README.md

我将向大家展示如何轻松通过Hugging Face 空间进行服务性能剖析。你可以把获得的分析结果用于推理端点或其他相同硬件的平台的部署。

  • Hugging Face 空间https://hf.co/spaces

  • 推理端点https://hf.co/inference-endpoints/dedicated

动机

为了更好地理解性能剖析的必要性,我们先讨论一些背景信息。

大语言模型 (LLM) 从根子上来说效率就比较低,这主要源自其基于解码器的工作方式,每次前向传播只能生成一个新词元。随着 LLM 规模的扩大以及企业采用率的激增,AI 行业围绕优化手段创新以及性能提优技术做了非常出色的工作。

  • 解码器的工作方式https://hf.co/learn/nlp-course/chapter1/6?fw=pt

  • 采用率的激增https://a16z.com/generative-ai-enterprise-2024/

在 LLM 推理服务优化的各个方面,业界积累了数十项改进技术。各种技术层出不穷,如:Flash Attention、Paged Attention、流式响应、批处理改进、投机解码、各种各样的量化技术、前端网络服务改进,使用更快的语言(抱歉,Python

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/845330
推荐阅读
相关标签