赞
踩
前⾯我们已经初步认识了,什么是类别不平衡问题。其实,在现实环境中,采集的数据(建模样本)往往是比例失衡
的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例);奢侈品消费人群鉴定等。
在这⼀节中,我们⼀起看⼀下,当遇到数据类别不平衡的时候,我们该如何处理。在Python中,有Imblearn包,它就是为处理数据比例失衡而生的。
pip3 install imbalanced-learn
第三方包链接:https://pypi.org/project/imbalanced-learn/
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
#使⽤make_classification⽣成样本数据
X, y = make_classification(n_samples=5000,
n_features=2, # 特征个数= n_informative() + n_redundant + n_repeated
n_informative=2, # 多信息特征的个数
n_redundant=0, # 冗余信息,informative特征的随机线性组合
n_repeated=0, # 重复信息,随机提取n_informative和n_redundant 特征
n_classes=3, # 分类类别
n_clusters_per_class=1, # 某⼀个类别是由⼏个cluster构成的
weights=[0.01, 0.05, 0.94], # 列表类型,权重⽐
random_state=0)
#查看各个标签的样本量
from collections import Counter
Counter(y)
# Counter({2: 4674, 1: 262, 0: 64})
# 数据可视化
plt.scatter(x[:, 0],x[:, 1], c=y)
plt.show()
可以看出样本的三个标签中,1,2的样本量极少,样本失衡。下面使用imblearn进行过采样。 接下来,我们就要基于以上数据,进行相应的处理。
关于类别不平衡的问题,主要有两种处理方式:
对训练集里的少数类进行“过采样”(oversampling),即增加⼀些少数类样本使得正、反例数目接近,然后再进行学习。
随机过采样是在少数类中随机选择⼀些样本,然后通过复制所选择的样本生成样本集。
# 使⽤imblearn进⾏随机过采样
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)
#查看结果
Counter(y_resampled)
#过采样后样本结果
# Counter({2: 4674, 1: 4674, 0: 4674})
# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()
为了解决随机过采样中造成模型过拟合问题,又能保证实现数据集均衡的目的,出现了过采样法代表性的算法SMOTE 算法。
SMOTE算法合成新少数类样本的算法描述如下:
对于少数类中的每⼀个样本,以欧式距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
根据样本不平衡比例设置⼀个采样比例以确定采样倍率N,对于每⼀个少数类样本,从其k近邻中随机选择若干个样本,假设选择的是。
对于每⼀个随机选出来的近邻,分别与按照如下公式构建新的样本。
SMOTE算法摒弃了随机过采样复制样本的做法,可以防⽌随机过采样中容易过拟合的问题,实践证明此方法可以提高分类器的性能。
# SMOTE过采样
from imblearn.over_sampling import SMOTE
X_resampled, y_resampled = SMOTE().fit_resample(X, y)
Counter(y_resampled)
# 采样后样本结果
# [(0, 4674), (1, 4674), (2, 4674)]
# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()
直接对训练集中多数类样本进行“欠采样”(undersampling),即去除⼀些多数类中的样本使得正例、反例数目接近,然后再进行学习。
随机欠采样顾名思义即从多数类中随机选择⼀些样样本组成样本集。
# 随机⽋采样
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
Counter(y_resampled)
# 采样后结果
[(0, 64), (1, 64), (2, 64)]
# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()
官网链接:https://imbalanced-learn.readthedocs.io/en/stable/ensemble.html
加油!
感谢!
努力!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。