赞
踩
本报告在单一数据集上测试了 KNN 的 k 值,欧拉距离的使用与否,归一化数据与否对 KNN 算法结果的影响,测试数据来源于 UCI 机器学习数据集的 iris 数据集,由于数据量较少,采用交叉验证的方式(10-fold-cross validation),实验结果表明,在本数据集上使用欧拉距离,不进行特征归一化,在 k = sqrt(m)(m 为数据测试量)能取得最小的错误率,并对不同变量影响下的结果进行了分析。
iris 数据集的中文名是安德森鸢尾花卉数据集,英文全称是 Anderson’s Iris dataset。iris 包含 150 个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,一共分为三类:
虽然是四维数据,但其属性主要分为两类:sepal 的长宽, petal 的长宽,首先分别根据其绘制散点图进行分析:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。