当前位置:   article > 正文

svm 支持向量机 回归 预测_从爬虫到机器学习-浅谈支持向量机(SVM)

支持向量回归预测的由来

e2b049e0ac11331cbc992fa09b7adb17.png
支持向量机(SVM)是一个二进制分类模型,其基本模型是线性分类器。SVM还包括核技能,这使其成为实质上的非线性分类器。 SVM训练策略是使间隔最大化,可以将其形式化为求解凸二次规划的问题,并且也等效于使正则化铰链损失函数最小化的问题。 SVM学习算法是求解凸二次规划的最佳算法。

超平面、支持向量与间隔

超平面可以理解为一维空间中的点,二维空间中的线,三维空间中平面的扩展,并且是分类决策的边界。支持向量机(SVM)设计用于二进制分类任务。这个想法是基于一组训练样本D在样本空间中找到一个分离的超平面,以分离不同类型的样本。选择超平面时,必须使超平面与两个类别的采样点尽可能远。

样本空间中,从任一点x到超平面(w,b)的距离公式为:

1d5b5be450e5d31858f53827d8bcab14.png

支持向量指距离超平面最近的几个训练样本点。

间隔指两个异类支持向量到超平面的距离之和。SVM的直观目的就是找到最小函数间隔的样本点(即支持向量),然后最大化它的几何间隔。在SVM的基本型中,就是要找到满足约束条件的参数w 和 b,使得 r 最大。

b07f66c8954834336550b1e869860be1.png

对偶问题

为了更高效求解参数w和b,拉格朗日乘子法被提出:

fd325b2b7b01ade5565a6743cb7520b8.png

可以采用SMO算法完成对偶问题的求解。


核函数

对于非线性可分的训练样本通过核函数将原始空间映射到更高维的特征空间来使得样本线性可分。x映射后的特征向量可以表示为

43e933728a54a327e2aa52ce75bfba1d.png

那么新的模型可以表示为:

2431e6d19143ec17f38fabe0d00c7bc6.png

特征空间的好坏对支持向量机的性能至关重要,因此,核函数的选择成为支持向量机的最大变数。

核函数定理:

  • 核矩阵(kernel matrix)K总是半正定的
  • 只要一个对称函数所对应的核矩阵半正定,就能用作核函数
  • 对于一个半正定矩阵,总能找到一个与之对应的映射
  • 任何一个核函数都隐式地定义了一个称谓“再生核希尔伯特空间”(RKHS)的特征空间

核函数特点:

  1. 两个核函数的线性组合结果也是核函数,即核函数加核函数也是核函数。
  2. 两个核函数的直积也是核函数,即核函数乘核函数也是核函数。
  3. 若k1​0为核函数,则对于任意函数g(x),k(x,z)=g(x)k1(x,z)g(z)也是核函数。

软硬间隔与正则化

  • 硬间隔要求所有样本必须全部划分正确,完全线性可分。
  • 软间隔允许某些样本没有被正确划分。
  • 软间隔解决了很难确定合适的核函数使得训练样本在特征空间中线性可分的问题。

对于第三点,有缓解的方法:

  1. 允许支持向量机在一些样本上出错。
  2. 允许某些样本不满足约束。
  3. 在最大化间隔的同时,使不满足约束的样本尽可能少。

软间隔支持向量机的优化目标函数:

6c3b4c9efbe5a7da76fc090989d109d9.png

其中的常数C,其取无穷大时,约束条件等于硬间隔条件。但当C取有限值,则允许一些样本存在不满足约束的情况。


支持向量回归与核方法

支持向量机中的原始样本空间不一定具有满足条件的超平面,但原始空间如果是有限维的,则总会有一个高维特征空间使样本线性可分离。核函数用于简化大型特征的计算的方法。核函数的选择是支持向量机性能的最大变量。常用的核函数是线性核,多项式核,高斯核(RBF核),拉普拉斯核,Sigmoid核。对于文本数据,通常使用线性核,并且在情况未知时可以首先尝试使用高斯核。

支持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值大于ε时才计算损失.

核方法是指通过引入核函数将低维的非线性学习拓展为高维的非线性学习。核方法的理论基础是Cover's theorem,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/135513?site
推荐阅读
相关标签
  

闽ICP备14008679号