当前位置:   article > 正文

仅使用单个 4GB GPU 即可执行最强大的开源 LLM 模型 Llama3 70B_4g gpu llama3

4g gpu llama3

AirLLM 优化了推理内存使用,允许 70B 大型语言模型在单个 4GB GPU 卡上运行推理。不需要会导致模型性能下降的量化、蒸馏、修剪或其他模型压缩技术。

在这里,我将逐步展示如何在低 GPU 上对任何重型模型进行推理。

第1步:安装airllm、torch和jupyter笔记本。

pip install airllm
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

  • 1
  • 2
  • 3

步骤2:然后我们只需要下面给出的代码:

from airllm import AutoModel
import os
os.environ[“HUGGINGFACEHUB_API_TOKEN”]="Your-token"
MAX_LENGTH = 128
# could use hugging face model repo id:
model = AutoModel.from_pretrained("meta-llama/CodeLlama-70b-hf")

# or use model's local path...
#model = AutoModel.from_pretrained("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")

input_text = [
        'What is the capital of United States?',
        #'I like',
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/886834
推荐阅读
  

闽ICP备14008679号