当前位置:   article > 正文

大模型训练数据多样性的重要性_大模型数据多样性评估

大模型数据多样性评估

  大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

在这里插入图片描述

  本文介绍核心内容为大模型训练数据多样性的重要性,希望对学习大模型的同学们有所帮助。

1. 引言

  模型A和模型B进行PK,假设模型A的参数量为800M,模型B的参数量为400M。模型A的训练数据是由90%不重复的数据和10%的重复数据构成的,其中10%的数据是由0.1%的数据复制一百份而成的。大家可以先猜猜哪个模型的效果更好。是模型A还是模型B,或者两者相差不大。

  如果在模型A的基础上将重复数据进行删除,相当于只保留90.01%的数据量,从而得到模型C,那么模型A、模型B、模型C三者的效果如何呢?

  数据复制也称为是数据上采样或者过采样,是机器学习较为常用的解决数据不

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/88018
推荐阅读
相关标签
  

闽ICP备14008679号