当前位置:   article > 正文

机器学习之数据均衡算法种类大全+Python代码一文详解_多指标均衡算法

多指标均衡算法

目录

前言

一、为什么要做数据均衡?

二、数据场景

1.大数据分布不均衡

2.小数据分布不均衡

三、均衡算法类型

1.过采样

 2.欠采样

3.组合采样

   四、算法具体种类

1.欠采样算法:

(1).RandomUnderSampler

(2).ClusterCentroids

(3).CondensedNearestNeighbour

​(4).EditedNearestNeighbours

(5).RepeatedEditedNearestNeighbours

(6).AllKNN

(7).InstanceHardnessThreshold

(8).NearMiss

​(9).NeighbourhoodCleaningRule

(10)OneSidedSelection

(11). TomekLinks

2.过采样算法:

(1).SMOTE

(2).RandomOverSampler

​(3)SMOTEN、BorderlineSMOTE、KMeansSMOTE、SVMSMOTE

(4).ADASYN

​3.组合采样

 (1).SMOTETomek、SMOTEENN

关于每个采样方法的参数和具体细致的原理将会在我的机器学习专栏逐个讲到:机器学习

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢



前言

对于整个数据建模来看,数据均衡算法属于数据预处理一环。当整个数据集从调出数据库到拿到手的时候,对于分类数据集来说类别一般都是不均衡的,整个数据集合也是较为离散的。因此不可能一拿到数据集就可进行建模,类别的不均衡会极大影响建模判断准确率。其中我们希望整个数据集合的类别数目都是相似的,这样其特征数据权重能够更好的计算出来,便于分类。对于预测模型也是如此。数据均衡是整个数学建模以及研究最重要不得不重视的一环,下面我将详细介绍数据均衡的方法以及运用的不同场景。


一、为什么要做数据均衡?

首先在进行实验之前我们要了解数据均衡的重要性,这是一件值得我们去投入众多精力的事。一旦数据均衡做的不好将极大可能影响模型的准确性。数据预处理决定我们模型的上限,在一些重要的数学建模比赛或者是SCI论文中,数据均衡绝对是浓墨重彩的一环。我们可以这样思考:

        我们现在需要对一种疾病进行甄别,该病的发病概率为2%,而且很严重,100个人之间就可能会有2个人携带病毒。现在我们需要根据该病的特征数据构建能够判断患病的人。如果我们不进行数据均衡,倘若我们获得了10000份人的检测指标数据,其中有200人被标记为患病。那么我们立刻进行建模,因为患病人群数量极少,那么模型根据每一次特征权重计算反复迭

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/926635
推荐阅读
相关标签
  

闽ICP备14008679号