【ChatGLM3】（8）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度1.1万 tokens/s，真的超级快，高并发

作者：小蓝xlanll | 2024-02-10 08:16:15

踩

fastllm

【ChatGLM3】（7）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度11w tokens/s，真的超级快。

项目上说可以对模型进行优化。
fastllm是纯c++实现，无第三方依赖的高性能大模型推理库
6~7B级模型在安卓端上也可以流畅运行

功能概述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/73765