当前位置:   article > 正文

【ChatGLM3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1万 tokens/s,真的超级快,高并发

fastllm

1,视频演示

https://www.bilibili.com/video/BV1fC4y1c7nf/

【ChatGLM3】(7):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度11w tokens/s,真的超级快。

更多chatgpt资料:

https://blog.csdn.net/freewebsys/category_12270092.html

2,关于fastllm

https://github.com/ztxz16/fastllm

项目上说可以对模型进行优化。
fastllm是纯c++实现,无第三方依赖的高性能大模型推理库
6~7B级模型在安卓端上也可以流畅运行

功能概述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/73765
推荐阅读