赞
踩
目录
LR和SVM都是分类算法;监督学习算法;判别模型;
1)、损失函数不同。逻辑回归,通过极大似然估计的方法估计出参数的值;支持向量机基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。
2)、SVM只考虑局部的边界线附近的点,而逻辑回归考虑全局(远离的点对边界线的确定也起作用)。
3)、在解决非线性问题时,支持向量机采用核函数的机制,而LR通常不采用核函数的方法。
4)、线性SVM依赖数据表达的距离测度,所以需要对数据先做normalization,LR不受其影响。
5)、SVM的损失函数就自带正则。(SVM为结构风险最小化模型:在训练误差和模型复杂度之间寻求平衡,防止过拟合,从而达到真实误差的最小化)
KD树建树采用的是从m个样本的n维特征中,分别计算n个特征的取值的方差 ,用方差最大的第k维特征 nk 来作为根节点。对于这个特征,我们选择特征nk 的取值的中位数 nkv 对应的样本作为划分点,对于所有第k维特征的取值小于 nkv 的样本,我们划入左子树,对于第k维特征的取值大于 nkv 等于的样本,我们划入右子树,对于左子树和右子树,我们采用和刚才同样的办法来找方差最大的特征来做更节点,递归的生成KD树。
时间复杂度:O(I*n*k*m)
空间复杂度:O(n*m)
其中m为维度,n为数据量,I为迭代次数。一般I,k,m均可认为是常量,所以时间和空间复杂度可以简化为O(n),即线性的。
这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。
主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。
参考资料:
李航《统计学习方法》
http://www.cnblogs.com/jiangxinyang/p/9337094.html
https://blog.csdn.net/wjwfighting/article/details/82532847
https://www.cnblogs.com/pinard/category/894692.html
https://www.baidu.com/link?url=HfzWgzeRIWPH08txoXXCO7lJBotxDpxOfRDJE44TUY_-sKMQnXXrXZ7e3-Vs9BBsjKsd7ZXZ9v8_QjWj4fcIzNHVxZ8PnbhWOmUUvjeff0m&wd=&eqid=ffca968a000e7f22000000035bab7277
声明:本人从互联网搜集了一些资料整理,由于查找资料太多,好多内容出处不能记得,如有侵权内容,请各位博主及时联系我,我将尽快修改,并注明出处,再次感谢各位广大博主的资料。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。