当前位置:   article > 正文

机器学习小目标---K-近邻算法_小目标机器学习

小目标机器学习

 目标:

  •  了解KNN算法的思想及其原理     
  •   使用python手动实现KNN算法,并在sklearn中调用KNN算法
  •   了解监督学习和非监督学习的概念

K-最近邻(K-Nearest Neighbor,KNN)算法有3个基本要素:距离度量,k值的选择和分类决策规则。

K近邻的思想很简单,即在一个数据集上,给定一个新样本,找到与新样本距离最近的k个实例,在这些实例中属于多数的类即为这个新样本的类。

改进的方法主要从三个要素处理:

1、降低计算复杂度,提高算法的执行效率:

      通过高效的索引方法,大大降低寻找K个最近邻的计算开销。有的算法虽然能够有效降低K个最近邻的计算开销。

2、优化相似度度量方法

     (1) 当属性具有不同的尺度或相关时如何处理:做法:把每个属性的值规范化:最小-最大规范化。(2)当对象包含不同类型的属性(混合数据):袁方,杨有龙.针对混合型分类数据改进的K-modes算法距离公式[J/OL].计算机工程与应用:1-11[2019-10-08].http://kns.cnki.net/kcms/detail/11.2127.tp.20190429.1811.026.html .https://wenku.baidu.com/view/27749b8d700abb68a982fbed.html:近邻法(3)属性具有不同的权重,如何处理?度量相似度的距离方法中特征赋予不同权重来解决这一问题,即特征的权重一般根据各个特征在分类中的作用设定。可根据特征在整个训练样本库中的分类作用获得权重,也可根据其在训练样本的局部样本(靠近待测试样本的样本集合)中的分类作用获得权重。即对每个属性的贡献加权来修改邻近度公式。

3、K值的选择

      k值的选择很大程度上根据经验来选取,比如用交叉验证法、贝叶斯法等方法来确定k的取值。李潇潇. 贝叶斯核近邻分类方法研究[D].

4、分类决策规则:

 1、多数表决规则。

 2、排序融合规则  与KNN结合

高兵,刘美娜,谢彪,王玉鹏,孙琳,张秋菊.基于排序融合模型的紫癜性肾炎患者中差异表达变量的筛选研究[J].中国卫生统计,2018,35(05):663-665.

杨艺,韩德强,韩崇昭.基于排序融合的特征选择[J].控制与决策,2011,26(03):397-401.

代码实现:

 

使用sklearn实现knn

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/933896
推荐阅读
相关标签
  

闽ICP备14008679号