人工智能/机器学习基础知识——欠采样&过采样（UnderSampling & OverSampling）

作者：Cpp五条 | 2024-05-15 00:53:29

踩

oversampling

UnderSampling & OverSampling

欠采样 & 过采样

欠采样

Bagging

算法流程
- 将多类样本随机划分成n个子集，每个子集的数量等于少数类样本的数量
- 再将每个子集与其余少数类样本结合起来分别训练一个模型
- 最后将n个模型集成

Boosting

算法流程
- 第n轮训练：从多数样本中采样一部分样本与少数类样本结合起来训练一个模型 $M_n$
- 第n + 1轮训练：上一轮训练完成后，将能被 $M_n$ 正确分类的多数样本剔除，再从现在的多数样本中采样一部分与少数类样本结合起来训练下一个模型 $M_{n+1}$
- 最后将训练所得各个阶段的模型进行集成（加权平均）

Tomek Link：表示不同类别之间距离最近的一对样本，即这两个样本互为最近邻且属于不同类别

对于属于多数类的一个样本，如果其K个近邻点有超过一半都不属于多数类，则这个样本会被剔除

过采样

对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中

算法流程

假设数据为二维平面上的点集
- 对于每一个少数类样本 $x$
  - 找出该样本的k个近邻（k为超参数，由于数据为二维平面点集，故此用欧氏距离）
  - 对于k个近邻，选取其中m个样本，对每一个样本 $x^{'}$ ，以如下方式构造新样本（m为超参数）
    
    $x_{new} = x + rand(0, 1) · x'$

算法流程

核心算法和SMOTE-Regular一致，区别在于SMOTE-Borderline只对边界样本生成新样本（边界样本即k近邻半数以上都为多数类样本的少数类样本）

核心算法还是SMOTE，ADASYN先计算出需要合成的样本总量再调用SMOTE

算法流程
- 计算需要合成的样本总量
  
  $G = （S_{max} - S_{min}）· β$
  
  其中 $S_{max}$ 为多数类样本数量， $S_{min}$ 为少数类样本数量， $β$ 为超参数。G为总共需合成的少数类样本数量。
- 对于每个少数类样本 $x_i$ ，找出其k近邻，并计算
  
  $Γ_i = \frac{Δ_i / K}{Z}$
  
  其中 $Δ_i$ 为k近邻个点中多数类样本的数量，Z为规范化因子以确保Γ构成一个分布。
- 最后对每个少类样本 $x_i$ 计算需要合成的样本数量g_i，再用SMOTE算法合成新样本
  
  $g_i = Γ_i · G$

由于过采样后容易产生很多与周围样本“相似度”过高的重叠样本，增大模型分类难度，而欠采样可以去除这些重叠度过大的样本。故可将二者结合起来，先进行过采样再进行欠采样，如SMOTE + ENN 或 SMOTE + Tomek

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/570865