当前位置:   article > 正文

Qwen微调-微调设置以及微调结果-week9_mlx qwen 微调

mlx qwen 微调

Qwen1.5-4B微调配置以及微调结果

在此次微调过程中,我们首先确定了微调的方法–lora以及微调的环境–采用现有的llama-factory框架

准备训练数据集

此次我们的微调使用了5W条instruction - output 结构的数据集,进行有监督的学习

我们首先手动整理了约5000份数据,该部分数据旨在提高模型的复杂推理能力。

然后先将现有数据集约100W条,如下

在这里插入图片描述

从中随机抽取5W条作为基本训练数据,然后加入我们手动生成的5000份数据,组成最后的数据集

这些数据涵盖中文推理能力和法律专业领域知识、推理数据等等

训练之前的准备

首先你准备微调数据集放到llama factory目录下的data目录中

然后在dataset.info中注册该数据类型

如下

在这里插入图片描述

然后启动llam-factory:

llamafactory-cli webui
  • 1

配置参数如下

cutoff_len: 4096
dataset: merged_law
dataset_dir: data
ddp_timeout: 180000000
deepspeed: cache/ds_z2_config.json
do_train: true
finetuning_type: lora
flash_attn: auto
fp16: true
gradient_accumulation_steps: 8
include_num_input_tokens_seen: true
learning_rate: 0.0001
logging_steps: 5
lora_alpha: 16
lora_dropout: 0
lora_rank: 8
lora_target: all
lr_scheduler_type: cosine
max_grad_norm: 1.0
max_samples: 100000
model_name_or_path: /Qwen/Qwen1.5-4B/
num_train_epochs: 3.0
optim: adamw_torch
output_dir: saves/Qwen1.5-4B/lora/train_2024-06-23-11-02-39
packing: false
per_device_train_batch_size: 2
plot_loss: true
preprocessing_num_workers: 16
report_to: none
save_steps: 100
stage: sft
template: qwen
warmup_steps: 0
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33

进行训练

此次使用6张V100进行训练,耗时4小时(未完全消耗显卡资源)

训练loss 如下

在这里插入图片描述

100进行训练,耗时4小时(未完全消耗显卡资源)

训练loss 如下

[外链图片转存中…(img-5csRrwW1-1719193082065)]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/870753
推荐阅读
相关标签
  

闽ICP备14008679号