当前位置:   article > 正文

机器学习四之SVM、KNN、K-mean_svm knn k-means

svm knn k-means

目录

十二、SVM与LR

相同点:

不同点:

十三、KNN(KD树的建立)

十四、K-mean

1)层次聚类

2)密度聚类(DBSCA)

3)谱聚类


十二、SVM与LR

相同点:

LR和SVM都是分类算法;监督学习算法;判别模型

不同点:

1)、损失函数不同。逻辑回归,通过极大似然估计的方法估计出参数的值;支持向量机基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。

2)、SVM只考虑局部的边界线附近的点,而逻辑回归考虑全局(远离的点对边界线的确定也起作用)。

3)、在解决非线性问题时,支持向量机采用核函数的机制,而LR通常不采用核函数的方法。

4)、线性SVM依赖数据表达的距离测度,所以需要对数据先做normalization,LR不受其影响。

5)、SVM的损失函数就自带正则。(SVM为结构风险最小化模型:在训练误差和模型复杂度之间寻求平衡,防止过拟合,从而达到真实误差的最小化)

十三、KNN(KD树的建立)

KD树建树采用的是从m个样本的n维特征中,分别计算n个特征的取值的方差 ,用方差最大的第k维特征 nk 来作为根节点。对于这个特征,我们选择特征nk  的取值的中位数 nkv 对应的样本作为划分点,对于所有第k维特征的取值小于 nkv  的样本,我们划入左子树,对于第k维特征的取值大于 nkv 等于的样本,我们划入右子树,对于左子树和右子树,我们采用和刚才同样的办法来找方差最大的特征来做更节点,递归的生成KD树。

十四、K-mean

时间复杂度:O(I*n*k*m)

空间复杂度:O(n*m)

其中m为维度,n为数据量,I为迭代次数。一般I,k,m均可认为是常量,所以时间和空间复杂度可以简化为O(n),即线性的。

 

1)层次聚类

2)密度聚类(DBSCA)

这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。

3)谱聚类

主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。

 

参考资料:

李航《统计学习方法》

http://www.cnblogs.com/jiangxinyang/p/9337094.html

https://blog.csdn.net/wjwfighting/article/details/82532847

https://www.cnblogs.com/pinard/category/894692.html

https://www.baidu.com/link?url=HfzWgzeRIWPH08txoXXCO7lJBotxDpxOfRDJE44TUY_-sKMQnXXrXZ7e3-Vs9BBsjKsd7ZXZ9v8_QjWj4fcIzNHVxZ8PnbhWOmUUvjeff0m&wd=&eqid=ffca968a000e7f22000000035bab7277

  声明:本人从互联网搜集了一些资料整理,由于查找资料太多,好多内容出处不能记得,如有侵权内容,请各位博主及时联系我,我将尽快修改,并注明出处,再次感谢各位广大博主的资料。

 

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/747236
推荐阅读
相关标签
  

闽ICP备14008679号