当前位置:   article > 正文

MindSpore大模型并行需要在对应的yaml里面做哪些配置_mindformer数据并行

mindformer数据并行

系统环境

硬件环境(Ascend/GPU/CPU): Ascend

MindSpore版本: 2.2.0

执行模式(PyNative/ Graph): 不限

报错信息

2.1 问题描述

MindSpore大模型并行需要在对应的yaml里面做哪些配置

解决方案

  1. auto_trans_ckpt: True;
  2. load_checkpoint: "" 路径到文件夹,模型并行需要把模型放在rank_0下面;
  3. 需要把mindformer/core/parallel_config.py下面的vocab_emb_dp那一行注释掉;
  4. 使用pipeline并行的时候,要求micro_batch_num>=pipeline_stage;
  5. 模型并行mp一般设置小一点,建议为2,如果设置过大可能存在通信问题。
  1. #load_checkpoint: "/home/wizardcoder/1_wizardcoder-mindformers/outpu t/checkpoint/"  # 权重需要放在这个文件的rank_0下面: :
  2. auto_trans_ckpt: True  # If true, auto transform load_checkpoint to load in distributed model
  3. parallel_config:
  4.   data_parallel: 1  # 4
  5.   model_parallel: 1  # 8
  6.   pipeline_stage: 8
  7.   optimizer_shard: True
  8.   micro_batch_num: 8
  9.   vocab_emb_dp: True
  10.   gradient_aggregation_group: 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/843547
推荐阅读
相关标签
  

闽ICP备14008679号