当前位置:   article > 正文

fastllm 大模型推理加速 c++库

fastllm

原文链接:GitHub - ztxz16/fastllm: 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

fastllm

介绍

fastllm是纯c++实现,无第三方依赖的高性能大模型推理库

6~7B级模型在安卓端上也可以流畅运行

部署交流

快速开始 | 模型获取 | 开发计划 |

功能概述

推荐阅读
相关标签