【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署_tensorrt-llm部署glm4

作者：天景科技苑 | 2024-08-20 12:44:50

踩

tensorrt-llm部署glm4

TensorRT-LLM官方目前说在v0.12.0版本才会支持GLM-4-9B Chat ，下面以v0.10.0的魔改来做GLM-4-9B Chat的量化部署。

本文目标就是加速GLM-4-9B Chat，看看能多快。A100卡。

获取TensorRT-LLM代码：

# TensorRT-LLM 代码需要使用 git-lfs 拉取
apt-get update && apt-get1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/1007248