当前位置:   article > 正文

使用 Amazon SageMaker 微调 Llama 2 模型

使用 Amazon SageMaker 微调 Llama 2 模型

1c3aea7b4c3c494fd29dcbc241c8a7fd.gif

本篇文章主要介绍如何使用 Amazon SageMaker 进行 Llama 2 模型微调的示例。

这个示例主要包括:

  1. Llama 2 总体介绍

  2. Llama 2 微调介绍

  3. Llama 2 环境设置

  4. Llama 2 微调训练

前言

随着生成式 AI 的热度逐渐升高,国内外各种基座大语言竞相出炉,在其基础上衍生出种类繁多的应用场景。训练优异的基座大语言模型在通用性方面表现较好,但模型可能并未涉及到特定领域的专业术语、领域内的特定用语或上下文等。采用微调技术可以通过在领域特定数据上进行训练,使模型更好地适应目标领域的特殊语言模式和结构;结合基座模型的通用性和领域特定性,使得模型更具实际应用价值。

Llama 2 总体介绍

Llama 2 是 META 最新开源的 LLM,包括 7B、13B 和 70B 三个版本,训练数据集超过了 Llama 2 的 40%,达到 2 万亿 token;上下文长度也提升到 4K,可以极大扩展多轮对话的轮数、提示词输入数据;与此同时,Llama 2 Chat 模型使用基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),针对对话场景进行了大幅优化,达到了非常出色的有用性和安全性基准。HuggingFace 的 TGI 和 vLLM 等框架均有针对 Llama 2 的推理优化,进一步强化了 Llama 2 的可用性。

Llama 2 被认为是开源界大语言模型的首选,众多的垂类大模型均采用 Llama 2 作为基座大模型,在此基础上添加行业数据进行模型的预训练或者微调,适配更多的行业场景。

Llama 2 微调介绍

模型微调主要分为 Full Fine-Tune 和 PEFT (Performance-Efficient Fine-Tune),前者模型全部参数都会进行更新,训练时间较长,训练资源较大;而后者会冻结大部分参数、微调训练网络结构,常见的方式是 LoRA 和 P-Tuning v2。

PEFT 微调方式由于参数更新较少,可能导致模型无法学习到全部领域知识,对于特定任务或领域来说会出现推理不稳定的情况,因此大多数生产系统均使用全参数方式进行模型的微调。基于上述原因,本文会以全参数微调方式介绍 Llama 2 在 Amazon SageMaker 上的微调。

Llama 2 环境设置

备注:项目中的示例代码均保存于代码仓库,地址如下: 

https://github.com/aws-samples/llm-workshop-on-amazon-sagemaker

1. 升级 Python SDK 

pip install -U sagemaker

2. 获取运行时资源,包括区域、角色、账号、S3 桶等 

  1. import boto3
  2. import sagemaker
  3. from sagemaker import get_execution_role
  4. sess                     = sagemaker.Session()
  5. role                     = get_execution_role()
  6. sagemaker_default_bucket = sess.default_bucket()
  7. account                  = sess.boto_session.client("sts").get_caller_identity()["Account"]
  8. region                   = sess.boto_session.region_name

Llama 2 微调训练

微调准备

克隆代码

  • 采用 lm-sys 团队发布的 FastChat 平台进行 Llama 2 的微调,FastChat 也用于训练了知名的 Vicuna 模型,具有良好的代码规范和性能优化。

  1. git clone https://github.com/lm-sys/FastChat.git
  2. cd FastChat
  3. git reset --hard 974537efbd82093b45e64d07904efe7728193a52

下载 Llama 2 原始模型

  1. from huggingface_hub import snapshot_download
  2. from pathlib import Path
  3. local_cache_path = Path("./model")
  4. local_cache_path.mkdir(exist_ok=True)
  5. model_name = "TheBloke/Llama-2-13B-fp16"
  6. # Only download pytorch checkpoint files
  7. allow_patterns = ["*.json", "*.pt", "*.bin", "*.model", "*.py"]
  8. model_download_path = snapshot_download(
  9.    repo_id=model_name,
  10.    cache_dir=local_cache_path,
  11.    allow_patterns=allow_patterns,
  12.    revision='b2e65e8ad4bb35e5abaee0170ebd5fc2134a50bb'
  13. )
  14. # Get the model files path
  15. import os
  16. from glob import glob
  17. local_model_path = None
  18. paths = os.walk(r'./model')
  19. for root, dirs, files in paths:
  20.    for file in files:
  21.        if file == 'config.json':
  22.            print(os.path.join(root,file))
  23.            local_model_path = str(os.path.join(root,file))[0:-11]
  24.            print(local_model_path)
  25. if local_model_path == None:
  26.    print("Model download may failed, please check prior step!")

拷贝模型和数据到 Amazon S3

  1. chmod +x ./s5cmd
  2. ./s5cmd sync ${local_model_path} s3://${sagemaker_default_bucket}/llm/models/llama2/TheBloke/Llama-2-13B-fp16/
  3. rm -rf model

模型微调

  • 模型的微调使用全参数模型,以实现微调后模型的稳定性。

  • 模型的微调使用开源框架 DeepSpeed 进行加速。

准备基础镜像

使用 Amazon SageMaker 定制的深度学习训练镜像作为基础镜像,再安装 Llama 2 训练所需的依赖包。Dockerfile 如下:

  1. %%writefile Dockerfile
  2. ## You should change below region code to the region you used, here sample is use us-west-2
  3. From 763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-training:1.13.1-transformers4.26.0-gpu-py39-cu117-ubuntu20.04
  4. ENV LANG=C.UTF-8
  5. ENV PYTHONUNBUFFERED=TRUE
  6. ENV PYTHONDONTWRITEBYTECODE=TRUE
  7. RUN pip3 uninstall -y deepspeed \
  8.    && pip3 install deepspeed==0.10.0 \
  9.    && pip3 install transformers==4.30.2
  10. ## Make all local GPUs visible
  11. ENV NVIDIA_VISIBLE_DEVICES="all"

模型微调代码

模型微调源代码较多,细节可以参考上述 git 仓库。

微调参数

  • 为了节省显存,采用 DeepSpeed Stage-3

  • 训练过程开启 bf16,实现整数范围和精度的平衡

  • 训练数据集采用官方提供的 dummy_conversation.json,也就是典型的 {"instruction"、"input"、"output"} 的格式,同时可以支持多轮对话

  1. DEEPSPEED_OPTS="""
  2.    FastChat/fastchat/train/train_mem.py
  3.    --deepspeed ds.json
  4.    --model_name_or_path "/tmp/llama_pretrain/"
  5.    --data_path FastChat/data/dummy_conversation.json
  6.    --output_dir "/tmp/llama_out"
  7.    --num_train_epochs 1
  8.    --per_device_train_batch_size 1
  9.    --per_device_eval_batch_size  1
  10.    --gradient_accumulation_steps 4
  11.    --evaluation_strategy "no"
  12.    --save_strategy "no"
  13.    --save_steps 2000
  14.    --save_total_limit 1
  15.    --learning_rate 2e-5
  16.    --weight_decay 0.
  17.    --warmup_ratio 0.03
  18.    --lr_scheduler_type "cosine"
  19.    --logging_steps 1
  20.    --cache_dir '/tmp'
  21.    --model_max_length 2048
  22.    --gradient_checkpointing True
  23.    --lazy_preprocess True
  24.    --bf16 True
  25.    --tf32 True
  26.    --report_to "none"
  27. """

微调脚本

  • 微调使用 torchrun + DeepSpeed 进行分布式训练

  1. %%writefile ./src/ds-train-dist.sh
  2. #!/bin/bash
  3. CURRENT_HOST="${SM_CURRENT_HOST}"
  4. IFS=',' read -ra hosts_array <<< "${SM_HOSTS}"
  5. NNODES=${#hosts_array[@]}
  6. NODE_RANK=0
  7. for i in "${!hosts_array[@]}"; do
  8.    if [[ "${hosts_array[$i]}" == *${CURRENT_HOST}* ]]; then
  9.        echo "host index:$i"
  10.        NODE_RANK="$i"
  11.    fi
  12. done
  13.  
  14.    
  15. MASTER_PORT="13579"
  16. export NCCL_SOCKET_IFNAME="eth0"
  17. #Configure the distributed arguments for torch.distributed.launch.
  18. GPUS_PER_NODE="$SM_NUM_GPUS"
  19. DISTRIBUTED_ARGS="--nproc_per_node $GPUS_PER_NODE \
  20.                  --nnodes $NNODES \
  21.                  --node_rank $NODE_RANK \
  22.                  --master_addr $MASTER_ADDR \
  23.                  --master_port $MASTER_PORT"
  24. chmod +x ./s5cmd
  25. ./s5cmd sync s3://$MODEL_S3_BUCKET/llm/models/llama2/TheBloke/Llama-2-13B-fp16/* /tmp/llama_pretrain/
  26. CMD="torchrun ${DISTRIBUTED_ARGS} ${DEEPSPEED_OPTS}"
  27. echo ${CMD}
  28. ${CMD} 2>&1
  29. if [[ "${CURRENT_HOST}" == "${MASTER_ADDR}" ]]; then  
  30.     ./s5cmd sync /tmp/llama_out s3://$MODEL_S3_BUCKET/llm/models/llama2/output/TheBloke/Llama-2-13B-fp16/$(date +%Y-%m-%d-%H-%M-%S)/
  31. fi

启动微调

  • 全参数微调,需要使用至少一台 p4de.12xlarge(8 卡 A100 40GB)作为训练机器。

  • 当微调完成后,训练好的模型自动存储于指定的 S3 桶内,可用于后续的模型部署推理。

  1. import time
  2. from sagemaker.estimator import Estimator
  3. environment = {
  4.    'MODEL_S3_BUCKET': sagemaker_default_bucket # The bucket to store pretrained model and fine-tune model
  5. }
  6. base_job_name = 'llama2-13b-finetune'
  7. instance_type = 'ml.p4d.24xlarge'
  8. estimator = Estimator(role=role,
  9.                      entry_point='ds-train-dist.sh',
  10.                      source_dir='./src',
  11.                      base_job_name=base_job_name,
  12.                      instance_count=1,
  13.                      instance_type=instance_type,
  14.                      image_uri=image_uri,
  15.                      environment=environment,
  16.                      disable_profiler=True,
  17.                      debugger_hook_config=False)
  18. estimator.fit()

总结

大语言模型方兴未艾,正在以各种方式改变和影响着整个世界。客户拥抱大语言模型,亚马逊云科技团队同样在深耕客户需求和大语言模型技术,可以在未来更好地协助客户实现需求,提升业务价值。

本篇作者

6ce443c21a564a6109595741d2da8d7c.jpeg

高郁

亚马逊云科技解决方案架构师,主要负责企业客户上云,帮助客户进行云架构设计和技术咨询,专注于智能湖仓、AI/ML 等技术方向。

3c7b3572aea34ef2ee8fc45077824270.gif

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

952455b80801542c984978e00d9d8e6e.gif

听说,点完下面4个按钮

就不会碰到bug了!

c330e0b3208f52226bf51d8e36d2c4f1.gif

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/288443
推荐阅读
相关标签
  

闽ICP备14008679号