笔触狂放9

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

使用CPU运行llama 70B版本_ollama在cpu上运营

作者：笔触狂放9 | 2024-08-14 08:07:46

赞

踩

ollama在cpu上运营

Releases · ggerganov/llama.cpp · GitHubPort of Facebook's LLaMA model in C/C++. Contribute to ggerganov/llama.cpp development by creating an account on GitHub.https://github.com/ggerganov/llama.cpp/releases?下载llama.cpp（选择2023年8月21号之前的版本）

使用CPUZ查看CPU指令集是否支持AVX512，或者其他，根据自己的CPU下载具体文件。

创建一个文件夹，将文件解压进来。

https://huggingface.co/TheBloke/Llama-2-70B-Chat-GGML/tree/mainhttps://huggingface.co/TheBloke/Llama-2-70B-Chat-GGML/tree/main选择模型文件下载

如果猜的没错的话，模型有多大，就需要多大内存，根据自己的内存选择。

将模型解压放在刚刚的文件夹里。

创建一个bat或者在当前目录打开一个终端。

输入："server.exe" --ctx-size 4096 --threads 16 --model llama-2-70b-chat.ggmlv3.q8_0.bin --gqa 8

一定要加 --gqa 8这个参数才能运行，其他参数自行研究。

根据自己下的模型名修改上面的参数

打开终端里出现的网址。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/978849

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号