当前位置:   article > 正文

ChatGLM-Efficient-Tuning 参数解析glmtuner.hparams.ModelArguments

glmtuner

论点

类 glmtuner.hparams.ModelArguments <源码>

  • model_name_or_path (str,可选):huggingface.co/models中预训练模型或模型标识符的路径。默认:THUDM/chatglm-6b
  • config_name(str,可选):预训练的配置名称或路径(如果与 model_name 不同)。默认:None
  • tokenizer_name(str,可选):预训练分词器名称或路径(如果与 model_name 不同)。默认:None
  • cache_dir (str,可选):存储从Huggingface.co下载的预训练模型的位置。默认:None
  • use_fast_tokenizer (bool,可选):是否使用快速分词器之一(由分词器库支持)。默认:True
  • model_revision (str,可选):要使用的特定模型版本(可以是分支名称、标记名称或提交 ID)。默认:main
  • use_auth_token (str,可选): 将使用运行时生成的令牌huggingface-cli login。默认:False
  • quantization_bit(int,可选):量化模型的位数。默认:None
  • quantization_type(str,可选):int4 训练中使用的量化数据类型。默认:nf4
  • double_quantization (bool,可选): 是否在 int4 训练中使用双量化。默认:True
  • checkpoint_dir(str,可选):包含模型检查点以及配置的目录路径。默认:None
  • 奖励模型(str,可选):包含奖励模型检查点的目录的路径。默认:None
  • resume_lora_training (bool,可选): 是否从最后一个 LoRA 权重恢复训练,或者在合并它们后创建新的权重。默认:True
  • plot_loss (bool,可选): 是否绘制微调后的训练损失。默认:False

类 glmtuner.hparams.DataArguments <源>

  • dataset(str,可选):要使用的提供的数据集的名称。使用逗号分隔多个数据集。默认:alpaca_zh
  • dataset_dir(str,可选):包含数据集的文件夹的名称。默认:data
  • split(str,可选):用于训练和评估的数据集分割。默认:train
  • overwrite_cache (bool,可选): 覆盖缓存的训练和评估集。默认:False
  • preprocessing_num_workers(int,可选):用于预处理的进程数。默认:None
  • max_source_length(int,可选):标记化后的最大总输入序列长度。默认:512
  • max_target_length(int,可选):标记化后的最大总输出序列长度。默认:512
  • max_samples(int,可选):出于调试目的,截断每个数据集的示例数量。默认:None
  • eval_num_beams(int,可选):用于评估的光束数量。该参数将被传递给model.generate. 默认:None
  • ignore_pad_token_for_loss (bool,可选): 是否在损失计算中忽略与填充标签对应的标记。默认:True
  • source_prefix(str,可选):在每个源文本之前添加的前缀(对于 T5 模型有用)。默认:None
  • dev_ratio(float,可选):包含在开发集中的数据集的比例,应介于 0.0 和 1.0 之间。默认:0

类 glmtuner.hparams.FinetuningArguments <源>

  • finetuning_type(str,可选):使用哪种微调方法进行训练。默认:lora
  • num_layer_trainable(int,可选):用于冻结微调的可训练层数。默认:3
  • name_module_trainable(int,可选):用于冻结微调的可训练模块的名称。默认:mlp
  • pre_seq_len(int,可选):用于 P-tuning v2 的前缀标记数。默认:64
  • prefix_projection (bool,可选): 是否为 P-tuning v2 中的前缀添加项目层。默认:False
  • lora_rank(int,可选):LoRA微调的内在维度。默认:8
  • lora_alpha (float,可选):LoRA 微调的比例因子。(与学习率类似)默认:32.0
  • lora_dropout(float,可选):LoRA 微调的 Dropout 率。默认:0.1
  • lora_target(str,可选):应用LoRA的目标模块的名称。使用逗号分隔多个模块。默认:query_key_value

类 Transformers.Seq2SeqTrainingArguments <来源>

我们只列出了一些重要的参数,完整列表请参阅HuggingFace Docs

  • output_dir (str):将写入模型预测和检查点的输出目录。
  • overwrite_output_dir (bool,可选):如果为 True,则覆盖输出目录的内容。如果 output_dir 指向检查点目录,则使用它来继续训练。默认:False
  • do_train (bool,可选): 是否运行训练。默认:False
  • do_eval (bool,可选): 是否运行评估。默认:False
  • do_predict(bool,可选):是否运行预测。默认:False
  • per_device_train_batch_size(int,可选):用于训练的每个 GPU/TPU 核心/CPU 的批量大小。默认:8
  • per_device_eval_batch_size(int,可选):用于评估或预测的每个 GPU/TPU 核心/CPU 的批量大小。默认:8
  • gradient_accumulation_steps(int,可选):在执行向后/更新传递之前累积梯度的更新步骤数。默认:1
  • Learning_rate(float,可选): AdamW优化器的初始学习率。默认:5e-5
  • weight_decay(float,可选):应用于除AdamW优化器中的所有偏差和 LayerNorm 权重之外的所有层的权重衰减(如果不为零)。默认:0.0
  • max_grad_norm(float,可选):最大梯度范数(用于梯度裁剪)。默认:1.0
  • num_train_epochs(float,可选):要执行的训练时期总数(如果不是整数,将执行停止训练之前最后一个时期的小数部分百分比)。默认:3.0
  • logging_steps(int,可选):两个日志之间的更新步骤数。默认:500
  • save_steps(int,可选):两次检查点保存之前的更新步骤数。默认:500
  • no_cuda (bool,可选): 是否不使用 CUDA,即使它可用或不可用。默认:False
  • fp16(bool,可选):是否使用 fp16 16 位(混合)精度训练而不是 32 位训练。默认:False
  • Predict_with_generate (bool,可选): 是否使用generate来计算生成指标(ROUGE, BLEU)。默认:False
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号