赞
踩
官方文档:
https://nvidia.github.io/TensorRT-LLM/quick-start-guide.html#launch-the-docker
参考资料源:
https://swanhub.co/ZhipuAI/ChatGLM3/blob/main/tensorrt_llm_demo/README.md
https://github.com/THUDM/GLM-4/issues/132
TensorRT-LLM官方目前说在v0.12.0版本才会支持GLM-4-9B Chat ,下面以v0.10.0的魔改来做GLM-4-9B Chat的量化部署。
本文目标就是加速GLM-4-9B Chat,看看能多快。A100卡。
# TensorRT-LLM 代码需要使用 git-lfs 拉取
apt-get update && apt-get
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。