当前位置:   article > 正文

机器学习(五)贝叶斯分类器之估算收入阶层_朴素贝叶斯收入预测

朴素贝叶斯收入预测

估算收入阶层

实验内容

本节将根据14个属性建立分类器评估一个人的收入等级。可能的输出类型是“高于50K”和“低 于或等于50K”。这个数据集稍微有点复杂,里面的每个数据点都是数字和字符串的混合体。数值 数据是有价值的,在这种情况下,不能用标记编码器进行编码。需要设计一套既可以处理数值数 据,也可以处理非数值数据的系统。我们将用美国人口普查收入数据集中的数据: https://archive.ics.uci.edu/ml/datasets/Census+Income 。

知识链接

  1. 分类与上一章介绍的回归不同,回归的输出结果是实数。监督学习分类器就是用带标记的训练数据建立一个模型, 然后对未知数据进行分类。
  2. 在真实世界中,分类器可以是非常复杂的形式。在学习过程中,可以看到二元(binary)分类器,将数据分 成两类,也可以看到多元(multiclass)分类器,将数据分成两个以上的类型。解决分类问题的数 据手段都倾向于解决二元分类问题,可以通过不同的形式对其进行扩展,进而解决多元分类问题。
  3. 朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶斯需要关注的参数是比较少的,这样也比较容易掌握。在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,MultinomialNB就是先验为多项式分布的朴素贝叶斯,而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
  4. 一般来说,如果样本特征的分布大部分是连续值,使用GaussianNB会比较好。如果如果样本特征的分大部分是多元离散值,使用MultinomialNB比较合适。而如果样本特征是二元离散值或者很稀疏的多元离散值,应该使用BernoulliNB。
  5. 最后使用交叉验证检验模型准确性,避免出现欠拟合和过拟合的现象
  6. 当处理机器学习模型时,通常关心3个指标:精度(precision)、召回率(recall)和F1得分(F1 score)。可以用参数评分标准(parameter scoring)获得各项指标的得分。精度是指被分类器正确分类的样本数量占分类器总分类样本数量 的百分比(分类器分类结果中,有一些样本分错了)。召回率是指被应正确分类的样本数量占某 分类总样本数量的百分比(有一些样本属于某分类,但分类器却没有分出来)。
  7. 一个给力的机器学习模型需要同时具备良好的精度和召回率。这两个指标是二律背反的,一 个指标达到100%,那么另一个指标就会非常差!我们需要保持两个指标能够同时处于合理高度。 为了量化两个指标的均衡性,引入了F1得分指标,是精度和召回率的合成指标,实际上是精度和 召回率的调和均值(harmonic mean):F1 得分=2×精度×召回率 / (精度+召回率)

详细步骤

# 导入相关的包
import numpy as np
from sklearn import preprocessing
from sklearn.naive_bayes import GaussianNB
from sklearn import model_selection

# 加载数据集
input_file = "adult.data.txt"
X = []
y = []
count_lessthan50k = 0  # 统计收入<=50k的人数
count_morethan50k = 0  # 统计收入>50k的人数
num_images_threshold = 10000
'''
我们将使用数据集中的20 000个数据点——每种类型10 000个,保证初始类型没有偏差。
在模型训练时,如果你的大部分数据点都属于一个类型,那么分类器就会倾向于这个类型。因此,
最好使用每个类型数据点数量相等的数据进行训练:
'''
with open(input_file, 'r') as f:
    for line in f.readlines():
        if '?' in line:
            continue
        data = line[:-1].split(', ')   # 将每一行数据放到一个列表当中
        if data[-1] == '<=50K' and count_lessthan50k < num_images_threshold:
            X.append(data)
            count_lessthan50k += 1
        elif data[-1] == '>50K' and count_morethan50k < num_images_threshold:
            X.append(data)
            count_morethan50k += 1
        if count_lessthan50k >=num_images_threshold and count_morethan50k >= num_images_threshold:
            break

X = np.array(X)

# 标记编码
label_encoder = []
X_encoded = np.empty(X.shape)
for i,item in enumerate(X[0]):
    if item.isdigit():
        X_encoded[:, i] = X[:, i]  # 如果这个属性本身就是数值,那么直接不需要标记编码,原封不动即可!!
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:, i] = label_encoder[-1].fit_transform(X[:, i])

X = X_encoded[:, :-1].astype(int)
y = X_encoded[:, -1].astype(int)

# 创建分类器
classifier_gaussiannb = GaussianNB()
classifier_gaussiannb.fit(X, y)

# 把数据分割成训练数据集和测试数据集,方便后面获取性能指标:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.25, random_state=5)
classifier_gaussiannb = GaussianNB()
classifier_gaussiannb.fit(X_train, y_train)
y_test_pred = classifier_gaussiannb.predict(X_test)

# 交叉验证
# 计算分类器的F1得分
f1 = model_selection.cross_val_score(classifier_gaussiannb,
        X, y, scoring='f1_weighted', cv=5)
print("F1 score: " + str(round(100*f1.mean(), 2)) + "%")

# 使用单一的数据示例进行测试
input_data = ['39', 'State-gov', '77516', 'Bachelors', '13', 'Never-married', 'Adm-clerical', 'Not-in-family', 'White', 'Male', '2174', '0', '40', 'United-States']
count = 0
input_data_encoded = [-1] * len(input_data)
for i,item in enumerate(input_data):
    if item.isdigit():
        input_data_encoded[i] = int(input_data[i])
    else:
        input_data_encoded[i] = int(label_encoder[count].transform([input_data[i]]))
        count = count + 1

input_data_encoded = np.array(input_data_encoded)
input_data_encoded = input_data_encoded.reshape(1, len(input_data))

# 打印单一的数据示例的预测结果
output_class = classifier_gaussiannb.predict(input_data_encoded)
print(label_encoder[-1].inverse_transform(output_class)[0])  # 使用inverse_transform函数进行标记解码
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80

源代码+数据集

链接:https://pan.baidu.com/s/19ModMp40DEny30F5h_Z-Pg
提取码:evyn
复制这段内容后打开百度网盘手机App,操作更方便哦

实验结果

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/967799
推荐阅读
相关标签
  

闽ICP备14008679号