赞
踩
AirLLM 优化了推理内存使用,允许 70B 大型语言模型在单个 4GB GPU 卡上运行推理。不需要会导致模型性能下降的量化、蒸馏、修剪或其他模型压缩技术。
在这里,我将逐步展示如何在低 GPU 上对任何重型模型进行推理。
pip install airllm
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
from airllm import AutoModel
import os
os.environ[“HUGGINGFACEHUB_API_TOKEN”]="Your-token"
MAX_LENGTH = 128
# could use hugging face model repo id:
model = AutoModel.from_pretrained("meta-llama/CodeLlama-70b-hf")
# or use model's local path...
#model = AutoModel.from_pretrained("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")
input_text = [
'What is the capital of United States?',
#'I like',
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。