当前位置:   article > 正文

[论文笔记] CT数据配比方法论——1、Motivation

[论文笔记] CT数据配比方法论——1、Motivation

我正在写这方面的论文,感兴趣的可以和我一起讨论!!!!!!

Motivation

1、探测原有模型的配比: 配比 与 ppl, loss, bpw, benchmark等指标 之间的关系。

2、效果稳定的配比:配比 与 模型效果 之间的规律。

Experiments

1、主语言(什么语言作为主语言,几种主语言?双主语言是否可行?)

DATA_CONFIG_PATH=/mnt/data/pretrain/code/Megatron-LM/scripts/train_scripts/data_configs/jinglei/CT_Qwen14B_22lan.txt

我在3期数据基础上调的新配比,13种语言只占0.13。由于重要语种的更改,把图中的de换成ja,占比0.046。

2、主语言占比

单主语言:主语言占比

双主语言:双主语言占比

3、阶梯配比

阶梯配比(9种语言扩到22种语言时,如果保持9种语言的配比,则会效果很差,扩充到22种语言需要用阶梯配比)

  • 第0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/873106
推荐阅读
相关标签
  

闽ICP备14008679号