1、正负样本不平衡问题如何解决？_正负样本不平衡的解决方法

作者：我家自动化 | 2024-04-25 10:39:53

踩

正负样本不平衡的解决方法

1、过采样、欠采样的方式对不平衡的正负样本进行采样。
2、正负样本各自在进行训练时，设置不用的惩罚系数。
3、集成的方式：例如，在数据集中的正、负样本分别为100和10000，比例为1：100。此时可以将负样本（类别中的大量样本集）随机分为100份（当然也可以更多），每份100条数据；然后每次形成训练集时使用所有的正样本（100条）和随机抽取的负样本（100）条形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。
4、若极其不平衡，可以考虑把任务转换成异常检测问题。
5、在评价指标上，选用ROC，AUC等可以无视样本不平衡问题的指标。

这里同时解释下上采样，下采样，欠采样，过采样

上采样和下采样在CNN中，可以理解为放大图片和缩小图片。
所以池化其实可以理解为是下采样。

数据不平衡时，可以使用欠采样和过采样进行解决：
欠采样（undersampling）：当数据不平衡的时，比如样本标签1有10000个数据，样本标签0有6000个数据时，为了保持样本数目的平衡，可以选择减少标签1的数据量，这个过程就叫做欠采样。减少样本多的。

过采样（oversampling）减少数据量固然可以达到以上效果，并且在一定程度上防止过拟合，但是这也牺牲了数据，因此存在另一种增加样本的采样方法，也就是增加标签0的样本数。增加样本少的。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/484835