当前位置:   article > 正文

彻底分清机器学习中的上采样、下采样、过采样、欠采样【总结】_机器学习 上采样和下采样的区别

机器学习 上采样和下采样的区别

今天看了篇中文的硕士论文,读着读着感觉有点奇怪,仔细一看原来他把下采样和欠采样搞混了,这里笔者就详细区分一下各个名称的概念。

1. 上采样&下采样

  • 对于CV领域来说,可以理解为放大图片和缩小图片,将原始图片放大就是上采样,将多个像素点合成一个从而缩小图片就是下采样,所以池化操作就可以理解为一种下采样。如果想进一步了解图像领域的上采样和下采样,可以参照:图像的上采样(upsampling)与下采样(subsampled)

  • 对于非cv领域能,我觉得这个词用得少一点,如果是特征增多,一般称为特征构造,如果是选择部分特征,一般说特征选择。

2.过采样&欠采样

这主要是针对不平衡的数据集做的一些操作。

  • 欠采样(undersampling):当数据不平衡的时,比如对于一个只用0和1的二分类问题,样本标签1有10000个数据,样本标签0有6000个数据时,为了保持样本数目的平衡,可以选择减少标签1的数据量,这个过程就叫做欠采样。

  • 过采样(oversampling)减少数据量固然可以达到以上效果,并且在一定程度上防止过拟合,但是这也牺牲了数据,因此存在另一种增加样本的采样方法,也就是增加标签0的样本数。

3.信号领域

本文主要是介绍机器学习领域,笔者发现在信号处理领域也有这些专业术语,这里可以参考:降采样,过采样,欠采样,子采样,下采样,上采样,你学会了吗?【总结】

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/372086
推荐阅读
相关标签
  

闽ICP备14008679号