赞
踩
目标:
K-最近邻(K-Nearest Neighbor,KNN)算法有3个基本要素:距离度量,k值的选择和分类决策规则。
K近邻的思想很简单,即在一个数据集上,给定一个新样本,找到与新样本距离最近的k个实例,在这些实例中属于多数的类即为这个新样本的类。
改进的方法主要从三个要素处理:
1、降低计算复杂度,提高算法的执行效率:
通过高效的索引方法,大大降低寻找K个最近邻的计算开销。有的算法虽然能够有效降低K个最近邻的计算开销。
2、优化相似度度量方法
(1) 当属性具有不同的尺度或相关时如何处理:做法:把每个属性的值规范化:最小-最大规范化。(2)当对象包含不同类型的属性(混合数据):袁方,杨有龙.针对混合型分类数据改进的K-modes算法距离公式[J/OL].计算机工程与应用:1-11[2019-10-08].http://kns.cnki.net/kcms/detail/11.2127.tp.20190429.1811.026.html .https://wenku.baidu.com/view/27749b8d700abb68a982fbed.html:近邻法(3)属性具有不同的权重,如何处理?度量相似度的距离方法中特征赋予不同权重来解决这一问题,即特征的权重一般根据各个特征在分类中的作用设定。可根据特征在整个训练样本库中的分类作用获得权重,也可根据其在训练样本的局部样本(靠近待测试样本的样本集合)中的分类作用获得权重。即对每个属性的贡献加权来修改邻近度公式。
3、K值的选择
k值的选择很大程度上根据经验来选取,比如用交叉验证法、贝叶斯法等方法来确定k的取值。李潇潇. 贝叶斯核近邻分类方法研究[D].
4、分类决策规则:
1、多数表决规则。
2、排序融合规则 与KNN结合
高兵,刘美娜,谢彪,王玉鹏,孙琳,张秋菊.基于排序融合模型的紫癜性肾炎患者中差异表达变量的筛选研究[J].中国卫生统计,2018,35(05):663-665.
杨艺,韩德强,韩崇昭.基于排序融合的特征选择[J].控制与决策,2011,26(03):397-401.
代码实现:
使用sklearn实现knn
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。