当前位置:   article > 正文

如何在亚马逊云科技AWS上利用LoRA高效微调AI大模型减少预测偏差

如何在亚马逊云科技AWS上利用LoRA高效微调AI大模型减少预测偏差

简介:

小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案,帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWS AI最佳实践,并应用到自己的日常工作里。

在机器学习和人工智能领域,生成偏差(Generative Bias) 是指在生成模型或生成式算法中所引入的偏差。生成偏差可能导致模型生成的输出结果不公平、不准确或不符合预期。本次我将介绍如何用亚马逊云科技的AI模型训练服务Amazon SageMaker和Lora框架高效微调AI翻译大模型,并用DJL Serving框架管理模型和处理推理请求,我将带领大家手把手通过一行一行的代码学会AI模型的微调,0基础学会AI核心技能。本架构设计还包括了与用户交互的前后端应用,全部采用了云原生Serverless架构,提供可扩展和安全的AI应用解决方案。本方案架构图如下

项目开发背景知识 

Dolly 3B 大模型介绍

Databricks 的dolly-v2-3b 是一种基于Databricks 机器学习平台训练的指令跟随大型语言模型,可以用于商业用途,专为自然语言处理任务而设计。它能够理解和生成多种语言的文本,支持翻译、摘要、问答等多种应用场景。Dolly 3B 拥有30亿个参数,具备强大的语言理解和生成能力。通过大规模的预训练数据集和复杂的模型架构,Dolly 3B 在处理复杂的语言任务时表现出色。

使用 Dolly 3B,开发者可以轻松实现跨语言翻译、文本生成和语义分析等任务。此外,Dolly 3B 还支持在特定领域内的定制化微调,使其在特定应用场景中表现更加精准和高效。

什么是微调

微调是指在预训练模型的基础上,通过在特定任务或领域的数据集上进行进一步训练,以提高模型在特定应用场景中的表现。微调的过程通常涉及以下几个步骤:

  1. 选择预训练模型:选择一个已经在大规模数据集上预训练过的模型,如 Dolly 3B。
  2. 准备微调数据:收集和整理适用于特定任务或领域的数据集。这些数据可以包括分类、回归、翻译等任务的示例。
  3. 设置训练参数:根据具体任务调整训练参数,如学习率、批量大小和训练轮数等。
  4. 进行微调训练:使用准备好的数据和训练参数对预训练模型进行进一步训练,使其在特定任务上的表现得到优化。
  5. 评估和部署:评估微调后的模型在验证集上的性能,并将其部署到实际应用中。

通过微调,开发者可以将通用的预训练模型转变为针对特定任务高度优化的模型,从而提升其在实际应用中的准确性和效率。微调在机器学习和人工智能领域中应用广泛,特别是在自然语言处理、计算机视觉和语音识别等领域,微调技术能够显著提升模型的性能和适用性。

本方案包括的内容:

  • 使用大语言模型Dolly进行自然语言翻译。

  • 评估翻译的性能和偏差。

  • 生成数据集微调 Dolly-3B 模型。

  • 在 Amazon SageMaker 上部署微调后的模型。

  • 将 SageMaker API 接口集成到实际软件应用中,构建前后端云原生架构。

项目搭建具体步骤:

1. 打开亚马逊云科技控制台,进入SageMaker服务,创建一个Jupyter Notebook实例并进入。

2. 新建一个Notebook,接下来我们开始Dolly德译英翻译模型的微调。首先我们安装必要的依赖

  1. %%capture
  2. !export TOKENIZERS_PARALLELISM=false
  3. !pip3 install -r requirements.txt
  4. !pip install sagemaker --quiet --upgrade --force-reinstall
  5. import warnings
  6. warnings.filterwarnings('ignore')

3. 接下来导入必要的依赖

  1. # Import libraries
  2. import torch
  3. from transformers import pipeline, AutoTokenizer
  4. import pandas as pd
  5. import tqdm
  6. import evaluate
  7. from rich import print

4. 我们再导入模型“dolly-v2-3B”,在这里我们定义Dolly的Tokenizer和微调的Pipeline

  1. # set seed for reproducible results
  2. seed = 100
  3. torch.manual_seed(seed)
  4. torch.backends.cudnn.deterministic = True
  5. if torch.cuda.is_available():
  6. torch.cuda.manual_seed_all(seed)
  7. # Use a tokenizer suitable for Dolly-v2-3B
  8. dolly_tokenizer = AutoTokenizer.from_pretrained("databricks/dolly-v2-3b", padding_side = "left")
  9. dolly_pipeline = pipeline(model = "databricks/dolly-v2-3b",
  10. device_map = "auto",
  11. torch_dtype = torch.float16,
  12. trust_remote_code = True,
  13. tokenizer = dolly_tokenizer)

 5. 接下来我们将一个远程的数据集导入到Pandas DataFrame中

wiki_bios_en_to_de = pd.read_csv("https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/data/Translated%20Wikipedia%20Biographies%20-%20EN_DE.csv")

 6. 我们将DataFrame的字段进行重命名转为标准格式,并从男性和女性样本中随机取100个

  1. wiki_bios_de_to_en = wiki_bios_en_to_de.rename(columns={"sourceLanguage": "targetLanguage", "targetLanguage": "sourceLanguage", "sourceText": "translatedText", "translatedText": "sourceText"})
  2. with pd.option_context('display.max_colwidth', None):
  3. display(wiki_bios_de_to_en.head())
  4. male_bios = wiki_bios_de_to_en[wiki_bios_de_to_en.perceivedGender == "Male"]
  5. female_bios = wiki_bios_de_to_en[wiki_bios_de_to_en.perceivedGender == "Female"]
  6. print("Male Bios size: " + str(male_bios.shape))
  7. print("Female Bios size: " + str(female_bios.shape))
  8. male_sample = male_bios.sample(100, random_state=100)
  9. female_sample = female_bios.sample(100, random_state=100)
  10. print("Male Sample size: " + str(male_sample.shape))
  11. print("Female Sample size: " + str(female_sample.shape))

7.  接下来我们将dataframe数据集中的sourceText的字段内容翻译为德语。将翻译后的内容取出后存到单独的列表中。

  1. male_generations = []
  2. for row in tqdm.tqdm(range(len(male_sample))):
  3. source_text = male_sample.iloc[row]["sourceText"]
  4. # Create instruction to provide model
  5. cur_prompt_male = ("Translate \"%s\" from German to English." % (source_text))
  6. # Prompt model with instruction and text to translate
  7. generation = dolly_pipeline(cur_prompt_male)
  8. generated_text = generation[0]['generated_text']
  9. # Store translation
  10. male_generations.append(generated_text)
  11. print('Generated '+ str(len(male_generations))+ ' male generations')
  12. female_generations = []
  13. for row in tqdm.tqdm(range(len(female_sample))):
  14. source_text = female_sample.iloc[row]["sourceText"]
  15. cur_prompt_female = ("Translate \"%s\" from German to English." % (source_text))
  16. generation = dolly_pipeline(cur_prompt_female)
  17. generated_text = generation[0]['generated_text']
  18. female_generations.append(generated_text)
  19. print('Generated '+ str(len(female_generations))+ ' female_generations')
  20. all_samples = pd.concat([male_sample, female_sample])
  21. english = all_samples["translatedText"].values.tolist()
  22. german = all_samples["sourceText"].values.tolist()
  23. gender = all_samples["perceivedGender"].values.tolist()
  24. generations = all_samples["generatedText"].values.tolist()

8. 接下来我们对模型的表现和偏差进行分析。我们会基于两个参数Bilingual Evaluation Understudy (BLEU) 和Regard进行分析。BLEU是对翻译质量评估指标,我们先基于BLUE进行分析,得到最终的分数(0-1),约接近1表示翻译约精准。

  1. # Load the BLEU metric from the evaluate library
  2. bleu = evaluate.load("bleu")
  3. bleu.compute(predictions = all_samples["generatedText"].values.tolist(), references = all_samples["translatedText"].values.tolist(), max_order = 2)
  4. bleu.compute(predictions = male_sample["generatedText"].values.tolist(), references = male_sample["translatedText"].values.tolist(), max_order = 2)
  5. bleu.compute(predictions = female_sample["generatedText"].values.tolist(), references = female_sample["translatedText"].values.tolist(), max_order = 2)

9. 接下来我们基于Regard参数进行评估。Regard是对于模型偏见的评估指标。如果想保障模型没有偏见,我们需要保持neutral尽可能接近于1,或者是Neutral、Positive、Negative分数均匀分布.

  1. # Load the Regard metric from evaluate
  2. regard = evaluate.load("regard", "compare")
  3. regard.compute(data = male_generations, references = female_generations, aggregation = "average")

10. 接下来我们开始优化模型,让模型的回复更加准确客观,消除偏见。我们第一个可以用的方法就是定义提示词工程,在提示词中强调在翻译中消除偏见。比如:

dolly_pipeline("""Translate from German to English and continue in a gender inclusive way: "Casey studiert derzeit um eine Mathematiklehrkraft zu werden wegen".""")

11. 同样我们也可以利用模型的微调来消除大语言模型中的偏见。首先我们导入必要的依赖

  1. %%capture
  2. import os
  3. import numpy as np
  4. import pandas as pd
  5. from typing import Any, Dict, List, Tuple, Union
  6. from datasets import Dataset, load_dataset, disable_caching
  7. disable_caching() ## disable huggingface cache
  8. from transformers import AutoModelForCausalLM
  9. from transformers import AutoTokenizer
  10. from transformers import TextDataset
  11. import torch
  12. from torch.utils.data import Dataset, random_split
  13. from transformers import TrainingArguments, Trainer
  14. import accelerate
  15. import bitsandbytes
  16. from IPython.display import Markdown
  17. !export TOKENIZERS_PARALLELISM=false
  18. import warnings
  19. warnings.filterwarnings('ignore')

12. 导入训练数据集

  1. sagemaker_dataset = load_dataset("csv",
  2. data_files='data/cda_fae_faer_faer_faerself.csv')['train']
  3. sagemaker_dataset

13. 定义提示词的格式,并将数据集按格式导入到提示词中。

  1. from utils.helpers import INTRO_BLURB, INSTRUCTION_KEY, RESPONSE_KEY, END_KEY, RESPONSE_KEY_NL, DEFAULT_SEED, PROMPT
  2. '''
  3. PROMPT = """{intro}
  4. {instruction_key}
  5. {instruction}
  6. {response_key}
  7. {response}
  8. {end_key}"""
  9. '''
  10. Markdown(PROMPT)
  11. def _add_text(rec):
  12. instruction = rec["instruction"]
  13. response = rec["response"]
  14. if not instruction:
  15. raise ValueError(f"Expected an instruction in: {rec}")
  16. if not response:
  17. raise ValueError(f"Expected a response in: {rec}")
  18. rec["text"] = PROMPT.format(
  19. instruction=instruction, response=response)
  20. return rec
  21. sagemaker_dataset = sagemaker_dataset.map(_add_text)
  22. sagemaker_dataset[0]

 14. 我们导入我们需要微调的模型dolly-v2-3b,定义tokenizer。

  1. tokenizer = AutoTokenizer.from_pretrained("databricks/dolly-v2-3b",
  2. padding_side="left")
  3. tokenizer.pad_token = tokenizer.eos_token
  4. tokenizer.add_special_tokens({"additional_special_tokens":
  5. [END_KEY, INSTRUCTION_KEY, RESPONSE_KEY_NL]})
  6. model = AutoModelForCausalLM.from_pretrained(
  7. "databricks/dolly-v2-3b",
  8. # use_cache=False,
  9. device_map="auto", #"balanced",
  10. torch_dtype=torch.float16,
  11. load_in_8bit=True,
  12. )

15. 为模型训练数据集预处理

  1. model.resize_token_embeddings(len(tokenizer))
  2. from functools import partial
  3. from utils.helpers import mlu_preprocess_batch
  4. MAX_LENGTH = 256
  5. _preprocessing_function = partial(mlu_preprocess_batch, max_length=MAX_LENGTH, tokenizer=tokenizer)
  6. encoded_sagemaker_dataset = sagemaker_dataset.map(
  7. _preprocessing_function,
  8. batched=True,
  9. remove_columns=["instruction", "response", "text"],
  10. )
  11. processed_dataset = encoded_sagemaker_dataset.filter(lambda rec: len(rec["input_ids"]) < MAX_LENGTH)
  12. split_dataset = processed_dataset.train_test_split(test_size=14, seed=0)
  13. split_dataset

16.  下面我们利用LoRA提升模型训练的效率,降低训练成本。我们定义Lora配置并利用Lora初始化我们的模型

  1. from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training, TaskType
  2. MICRO_BATCH_SIZE = 8
  3. BATCH_SIZE = 64
  4. GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE
  5. LORA_R = 256 # 512
  6. LORA_ALPHA = 512 # 1024
  7. LORA_DROPOUT = 0.05
  8. # Define LoRA Config
  9. lora_config = LoraConfig(
  10. r=LORA_R,
  11. lora_alpha=LORA_ALPHA,
  12. lora_dropout=LORA_DROPOUT,
  13. bias="none",
  14. task_type="CAUSAL_LM"
  15. )
  16. model = get_peft_model(model, lora_config)
  17. model.print_trainable_parameters()

 17. 下面我们定义一个data collator,将数据集整理成模型微调所需格式加速模型微调效率,设置模型微调参数并启动微调,最后将微调后的模型保存在本地。

  1. from utils.helpers import MLUDataCollatorForCompletionOnlyLM
  2. data_collator = MLUDataCollatorForCompletionOnlyLM(
  3. tokenizer=tokenizer, mlm=False, return_tensors="pt", pad_to_multiple_of=8
  4. )
  5. EPOCHS = 10
  6. LEARNING_RATE = 1e-4
  7. MODEL_SAVE_FOLDER_NAME = "dolly-3b-lora"
  8. training_args = TrainingArguments(
  9. output_dir=MODEL_SAVE_FOLDER_NAME,
  10. fp16=True,
  11. per_device_train_batch_size=1,
  12. per_device_eval_batch_size=1,
  13. learning_rate=LEARNING_RATE,
  14. num_train_epochs=EPOCHS,
  15. logging_strategy="steps",
  16. logging_steps=100,
  17. evaluation_strategy="steps",
  18. eval_steps=100,
  19. save_strategy="steps",
  20. save_steps=20000,
  21. save_total_limit=10,
  22. )
  23. trainer = Trainer(
  24. model=model,
  25. tokenizer=tokenizer,
  26. args=training_args,
  27. train_dataset=split_dataset['train'],
  28. eval_dataset=split_dataset["test"],
  29. data_collator=data_collator,
  30. )
  31. model.config.use_cache = False # silence the warnings. Please re-enable for inference!
  32. trainer.train()
  33. trainer.model.save_pretrained(MODEL_SAVE_FOLDER_NAME)
  34. trainer.model.config.save_pretrained(MODEL_SAVE_FOLDER_NAME)
  35. tokenizer.save_pretrained(MODEL_SAVE_FOLDER_NAME)

18.  接下来我们将微调后的模型部署到Amazon Sagemaker上,我们利用DJL框架实现MLOps。将模型打包上传到S3上,定义SageMaker模型运行环境和模型配置,最后加载大模型,部署生成API调用接口。

  1. import boto3
  2. import json
  3. import sagemaker.djl_inference
  4. from sagemaker.session import Session
  5. from sagemaker import image_uris
  6. from sagemaker import Model
  7. sagemaker_session = Session()
  8. print("sagemaker_session: ", sagemaker_session)
  9. aws_role = sagemaker_session.get_caller_identity_arn()
  10. print("aws_role: ", aws_role)
  11. aws_region = boto3.Session().region_name
  12. print("aws_region: ", aws_region)
  13. image_uri = image_uris.retrieve(framework="djl-deepspeed",
  14. version="0.22.1",
  15. region=sagemaker_session._region_name)
  16. print("image_uri: ", image_uri)
  17. %%bash
  18. rm -rf lora_model
  19. mkdir -p lora_model
  20. mkdir -p lora_model/dolly-3b-lora
  21. cp dolly-3b-lora/adapter_config.json lora_model/dolly-3b-lora/
  22. cp dolly-3b-lora/adapter_model.bin lora_model/dolly-3b-lora/
  23. %%writefile lora_model/serving.properties
  24. engine=Python
  25. option.entryPoint=model.py
  26. option.adapter_checkpoint=dolly-3b-lora
  27. option.adapter_name=dolly-lora
  28. %%writefile lora_model/requirements.txt
  29. transformers==4.27.4
  30. accelerate>=0.24.1,<1
  31. peft
  32. %%bash
  33. cp utils/deployment_model.py lora_model/model.py
  34. %%bash
  35. tar -cvzf lora_model.tar.gz lora_model/
  36. import boto3
  37. import json
  38. import sagemaker.djl_inference
  39. from sagemaker.session import Session
  40. from sagemaker import image_uris
  41. from sagemaker import Model
  42. s3 = boto3.resource('s3')
  43. s3_client = boto3.client('s3')
  44. s3 = boto3.resource('s3')
  45. # Get the name of the bucket with prefix lab-code
  46. for bucket in s3.buckets.all():
  47. if bucket.name.startswith('artifact'):
  48. mybucket = bucket.name
  49. print(mybucket)
  50. response = s3_client.upload_file("lora_model.tar.gz", mybucket, "lora_model.tar.gz")
  51. model_data="s3://{}/lora_model.tar.gz".format(mybucket)
  52. model = Model(image_uri=image_uri,
  53. model_data=model_data,
  54. predictor_cls=sagemaker.djl_inference.DJLPredictor,
  55. role=aws_role)
  56. %%time
  57. predictor = model.deploy(1, "ml.g4dn.2xlarge")

19.  回到SageMaker中查看部署好的模型API接口URL

20. 接下来我们创建一个Lambda函数,复制以下代码。这个lambda函数将作为后端服务器与微调后的模型进行交互,后端API将由API Gateway进行管理,收到用户请求后触发该lambda函数。

  1. # Import necessary libraries
  2. import json
  3. import boto3
  4. import os
  5. import re
  6. import logging
  7. # Set up logging
  8. logger = logging.getLogger()
  9. logger.setLevel(logging.INFO)
  10. # Create a SageMaker client
  11. sagemaker_client = boto3.client("sagemaker-runtime")
  12. # Define Lambda function
  13. def lambda_handler(event, context):
  14. # Log the incoming event in JSON format
  15. logger.info('Event: %s', json.dumps(event))
  16. # Clean the body of the event: remove excess spaces and newline characters
  17. cleaned_body = re.sub(r'\s+', ' ', event['body']).replace('\n', '')
  18. # Log the cleaned body
  19. logger.info('Cleaned body: %s', cleaned_body)
  20. # Invoke the SageMaker endpoint with the cleaned body as payload and content type as JSON
  21. response = sagemaker_client.invoke_endpoint(
  22. EndpointName=os.environ["ENDPOINT_NAME"],
  23. ContentType="application/json",
  24. Body=cleaned_body
  25. )
  26. # Load the response body and decode it
  27. result = json.loads(response["Body"].read().decode())
  28. # Return the result with status code 200 and the necessary headers
  29. return {
  30. 'statusCode': 200,
  31. 'headers': {
  32. 'Access-Control-Allow-Headers': 'Content-Type',
  33. 'Access-Control-Allow-Origin': '*',
  34. 'Access-Control-Allow-Methods': 'OPTIONS,POST'
  35. },
  36. 'body': json.dumps(result)
  37. }

以上就是在亚马逊云科技上利用SageMaker微调大模型Dolly 3B,减少翻译偏差的全部步骤。欢迎大家关注小李哥,未来获取更多国际前沿的生成式AI开发方案!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/939293
推荐阅读
相关标签
  

闽ICP备14008679号