[论文笔记] CT数据配比方法论——1、Motivation

作者：天景科技苑 | 2024-07-24 05:23:40

踩

我正在写这方面的论文，感兴趣的可以和我一起讨论！！！！！！

1、探测原有模型的配比：配比与 ppl, loss, bpw, benchmark等指标之间的关系。

2、效果稳定的配比：配比与模型效果之间的规律。

1、主语言（什么语言作为主语言，几种主语言？双主语言是否可行？）

DATA_CONFIG_PATH=/mnt/data/pretrain/code/Megatron-LM/scripts/train_scripts/data_configs/jinglei/CT_Qwen14B_22lan.txt

我在3期数据基础上调的新配比，13种语言只占0.13。由于重要语种的更改，把图中的de换成ja，占比0.046。

2、主语言占比

单主语言：主语言占比

双主语言：双主语言占比

3、阶梯配比

阶梯配比（9种语言扩到22种语言时，如果保持9种语言的配比，则会效果很差，扩充到22种语言需要用阶梯配比）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/873106