当前位置:   article > 正文

Llama2本地运行的3种方法_llama2运行代码

llama2运行代码

我们已经讨论了很多关于如何在 Replicate 上运行和微调 Llama 2。 但你也可以在 M1/M2 Mac、Windows、Linux 甚至手机上本地运行 Llama。 在本地运行 Llama 2 的一个很酷的事情是,甚至不需要互联网连接。

在这里插入图片描述

推荐:用 NSDT设计器 快速搭建可编程3D场景。

Llama 2 发布才几天,但已经有一些在本地运行它的技术。 在这篇博文中,我们将介绍三个可用于在你自己的设备上运行 Llama 2 的开源工具:

  • Llama.cpp (Mac/Windows/Linux)
  • Ollama (Mac)
  • MLC LLM(iOS/Android)

1、Llama.cpp (Mac/Windows/Linux)

Llama.cpp 是 Llama 在 C/C++ 中的移植,这使得可以在 Mac 上使用 4 位整数量化在本地运行 Llama 2。 Llama.cpp 也支持 Linux/Windows。

可以使用以下命令将其安装到 M1/M2 Mac 上:

curl -L "https://replicate.fyi/install-llama-cpp" | bash
  • 1

下面是上面命令的执行内容:

#!/bin/bash

# Clone llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# Build it. `LLAMA_METAL=1` allows the computation to be executed on the GPU
LLAMA_METAL=1 make

# Download model
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
    curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi

# Set prompt
PROMPT="Hello! How are you?"

# Run in interactive mode
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
  --color \
  --ctx_size 2048 \
  -n -1 \
  -ins -b 256 \
  --top_k 10000 \
  --temp 0.2 \
  --repeat_penalty 1.1 \
  -t 8
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28

下面是适用于你的英特尔 Mac 或 Linux 机器的单行命令。 与上面相同,但我们不包含 LLAMA_METAL=1 标志:

curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash
  • 1

下面是在 Windows 上的 WSL 上运行的单行命令:

curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
  • 1

2、Ollama(Mac)

Ollama 是一款开源 macOS 应用程序(适用于 Apple Silicon),可让你通过命令行界面运行、创建和共享大型语言模型。 Ollama 已经支持 Llama 2。

要使用 Ollama CLI,请从 ollama.ai/download 下载 macOS 应用程序。 安装完成后,就可以下载 Lllama 2,而无需注册帐户或加入任何等待名单。 在你的终端中运行:

# download the 7B model (3.8 GB)
ollama pull llama2

# or the 13B model (7.3 GB)
ollama pull llama2:13b
  • 1
  • 2
  • 3
  • 4
  • 5

然后你可以运行模型并与它聊天:

ollama run llama2
>>> hi
Hello! How can I help you today?
  • 1
  • 2
  • 3

注意:Ollama 建议至少有 8 GB RAM 来运行 3B 模型,16 GB 来运行 7B 模型,32 GB 来运行 13B 模型。

3、MLC LLM(手机上的 Llama)

MLC LLM 是一个开源项目,可以在各种设备和平台(包括 iOS 和 Android)上本地运行语言模型。

对于 iPhone 用户,App Store 上有一个 MLC 聊天应用程序。 MLC 现在支持 Llama 2 的 7B、13B 和 70B 版本,但它仍处于测试阶段,尚未出现在 Apple Store 版本上,因此你需要安装 TestFlight 才能试用。 在此处查看安装测试版的说明。


原文链接:Llama2本地运行的3个方案 — BimAnt

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/503693
推荐阅读
相关标签
  

闽ICP备14008679号