赞
踩
在此次微调过程中,我们首先确定了微调的方法–lora以及微调的环境–采用现有的llama-factory框架
此次我们的微调使用了5W条instruction - output 结构的数据集,进行有监督的学习
我们首先手动整理了约5000份数据,该部分数据旨在提高模型的复杂推理能力。
然后先将现有数据集约100W条,如下
从中随机抽取5W条作为基本训练数据,然后加入我们手动生成的5000份数据,组成最后的数据集
这些数据涵盖中文推理能力和法律专业领域知识、推理数据等等
首先你准备微调数据集放到llama factory目录下的data目录中
然后在dataset.info中注册该数据类型
如下
然后启动llam-factory:
llamafactory-cli webui
配置参数如下
cutoff_len: 4096 dataset: merged_law dataset_dir: data ddp_timeout: 180000000 deepspeed: cache/ds_z2_config.json do_train: true finetuning_type: lora flash_attn: auto fp16: true gradient_accumulation_steps: 8 include_num_input_tokens_seen: true learning_rate: 0.0001 logging_steps: 5 lora_alpha: 16 lora_dropout: 0 lora_rank: 8 lora_target: all lr_scheduler_type: cosine max_grad_norm: 1.0 max_samples: 100000 model_name_or_path: /Qwen/Qwen1.5-4B/ num_train_epochs: 3.0 optim: adamw_torch output_dir: saves/Qwen1.5-4B/lora/train_2024-06-23-11-02-39 packing: false per_device_train_batch_size: 2 plot_loss: true preprocessing_num_workers: 16 report_to: none save_steps: 100 stage: sft template: qwen warmup_steps: 0
进行训练
此次使用6张V100进行训练,耗时4小时(未完全消耗显卡资源)
训练loss 如下
100进行训练,耗时4小时(未完全消耗显卡资源)
训练loss 如下
[外链图片转存中…(img-5csRrwW1-1719193082065)]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。