赞
踩
书接上文,在《【AIGC】本地部署 ollama(gguf) 与项目整合》章节的最后,我在 ollama 中部署 qwen1_5-14b-chat-q4_k_m.gguf 预量化模型,在非 Stream 模式下需要 89 秒才完成一轮问答,响应速度实在是太慢,后续需要想办法进行优化…
PS:本人使用的是 2020 年 Intel 版本的 Macbook Pro(以下简称“MBP”)。如下图:
为了解决这个问题,找很多 ollama 的资料,基本上可以确定 3 点信息:
欸…看到这里好像又有点希望了,我的 MBP 估计也支持 Metal 方案吧
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。