赞
踩
https://www.bilibili.com/video/BV1fC4y1c7nf/
【ChatGLM3】(7):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度11w tokens/s,真的超级快。
更多chatgpt资料:
https://blog.csdn.net/freewebsys/category_12270092.html
https://github.com/ztxz16/fastllm
项目上说可以对模型进行优化。
fastllm是纯c++实现,无第三方依赖的高性能大模型推理库
6~7B级模型在安卓端上也可以流畅运行
功能概述
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。