llama2本地CPU推理运行_llama2 cpu推理

作者：空白诗007 | 2024-08-11 02:35:46

踩

llama2 cpu推理

介绍

本教程使用C语言部署运行llama2模型，可以高效地在CPU上进行推理。主要包含的内容有：
1 运行环境配置，包括C、python
2 原始llama2模型转换为二进制格式
3 使用C语言推理llama2

环境安装与配置

项目下载：
git clone https://github.com/karpathy/llama2.c.git
操作系统：ubuntu (Windows下我尝试过，编译会报错)
软件环境：
gcc make （已经有的就不用安装了）
python （我使用了3.9，其他版本预计都是可以的）
gcc安装：apt install build-essential
make安装：apt-get install make
python安装好之后安装一下依赖包，pip install -r requirements.txt

python主要作用就是将原始llama2模型转换为.bin二进制格式

github项目介绍

使用此仓库中的代码，您可以在PyTorch中从头开始训练Llama 2 LLM架构，然后将权重导出到二进制文件，并将其加载到一个简单的500行C文件（run.c）中，该文件进行模型推断。或者，您可以加载、微调和推断Meta的Llama 2（但这仍在积极完善中）。因此，该存储库是Llama 2 LLM的“全栈”训练+推断解决方案，强调极简和简单性。您可能认为您需要拥有许多十亿参数的LLM才能执行任何有

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/961777