当前位置:   article > 正文

机器学习--K-邻近算法(KNN)_uci数据集特征数小的用算法分类精确度不变

uci数据集特征数小的用算法分类精确度不变

k-邻近算法:有监督算法
算法工作原理:
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每一个特征与样本集中数据对应的特征进行比较,然后算法提供样本集中特征最相似数据(最邻近)的分类标签。一般来说,我们只选择样本数据集中前K个最相似的数据,这就是K-邻近算法中K的出处。

算法实验分析:
实验目的:用K-邻近算法实现UCI数据集的分类。
实验数据:选取Caesarian Section Classification Dataset(UCI剖腹产数据集)数据集进行分类,数据样本共80个,数据包含5种属性且分别为:
产妇年龄:{22,26,28,27,32,36,33,23,20,29,25,37,24,18,30,40,31,19,21,35,17,38}
分娩数量:{1,2,3,4}
分娩时间:{0,1,2} - > {0 =正常,1 =早产,2 =超过预产期}
血压:{2,1,0} - > {0 =低,1 =正常,2 =高}
心脏状态:{1,0} - > {0 =正常,1 =不适}
剖腹产:{0,1} - > {0 =不,1 =是}
以下为部分数据展示:实验中训练数据与测试数据比例为7:1
22,1,0,2,0,non-caesarean
26,2,0,1,0,cesarean
26,2,1,1,0,non-caesarean
数据集地址:http://archive.ics.uci.edu/ml/datasets/Caesarian+Section+Classification+Dataset
实验代码:

"""
    function:K邻近算法实现UCI数据集分类.
"""
from numpy import *
import numpy as np
from collections import Counter

def datasetload(filepath):
    data = []
    labels = []
    fr = open(filepath)
    for line in fr.readlines():
        curline = line.strip().split(',')
        fltline = list(map(float, curline[:5]))
        data.append(fltline)
        labels.append(curline[5:])
    return data, labels

# 计算欧式距离衡量数据间的相似度.
def distEclud(vecA, vecB):
    return sqrt(np.sum(power(np.array(vecA) - np.array(vecB), 2)))

def KNN(K):
    exact_amount = 0
    for i in range(len(goal_data)):
        distance = {}   # distance字典: key(数据编号):value(欧式距离).
        K_labels = []   # 存储前K个邻近数据的类标签.
        for j in range(len(train_data)):
            distance.update({j+1: (distEclud(goal_data[i], train_data[j]))})
        # 对计算结果进行排序,找出最邻近的前K个值.
        distance = sorted(distance.items(), key=lambda x: x[1])
        for t in range(K):
            # 取出前K个邻近数据的编号及类标签构成K_labels.
            # print("前K个邻近数据排序:{}".format(distance[t][0]))
            K_labels.append((train_labels[(distance[t][0])-1])[0])
        # counts_label邻近数据中频率最大的类标签及频率.
        counts_label = Counter(K_labels).most_common(1)
        print("第{}条目标数据预测类别为:{}---正确类别为:{}".format(i+1, (counts_label[0])[0],goal_labels[i])[0]))
        if (counts_label[0])[0] == ((goal_labels[i])[0]):
            exact_amount = exact_amount + 1
    # 准确率计算.
    accuracy = format(float(exact_amount) / float(len(goal_data)), '.2f')
    print("程序分类准确率:{}".format(accuracy))
    print("------------------分隔符------------------")

if __name__ == '__main__':
    train_path = 'D:/pycharm/code/python_learning_test/KNN/TRAIN_DATA.txt'
    goal_path = 'D:/pycharm/code/python_learning_test/KNN/GOAL_DATA.txt'
    train_data, train_labels = datasetload(train_path)
    goal_data, goal_labels = datasetload(goal_path)
    # 定义K邻近算法参数K.
    for K in range(1, 9):
        KNN(K)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53

实验中数据的距离度量用的是最简单的欧氏距离方法:
在这里插入图片描述
通过将目标数据与训练数据间的欧氏距离从小到大排列,选取前K个训练数据的类别,其中最多出现的类别为目标数据的预测类别。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/442570
推荐阅读
相关标签
  

闽ICP备14008679号