当前位置:   article > 正文

支持向量机基础简述_支持向量机是基于经验风险最小化原则构造的,因此有更好的泛华性能

支持向量机是基于经验风险最小化原则构造的,因此有更好的泛华性能

学习笔记来自《知识发现》—史忠植

支持向量机(support vector machine,SVM)建立在学习理论的结构风险最小化原则之上。

主要思想:针对两分类问题,在高位空间中寻找一个超平面作为两类的分割,以保>证最小的分类错误率。
优点:SVM可以处理 线性不可分 情况。


1.统计学习问题

1.1 经验风险

机器学习问题就是根据 l 个独立同分布的观测样本

(1.1)(x1,y1),(x2,y2),...,(xl,yl)
在一组函数 f(x,w)中,找到一个最优的函数 f(x,w0),对依赖关系进行估计,使 期望风险
(1.2)R(w)=L(y,f(x,w))dF(x,y)
最小,其中 f(x,w)称为预测函数集, w为函数的广义参数。f(x,w)可以表示任何函数集。 L(y,f(x,w))为用 f(x,w)对y进行预测造成的损失。
传统学习方法中,采用经验风险最小化(empririal risk minimization,ERM)准则,即用样本定义 、经验风险
(1.3)Remp(w)=12i=1lL(x,f(x,w))

机器学习就是要设计学习算法使 Remp(w)最小化,作为对式(2)的估计。

1.2 VC维

模式识别中,VC维:对一个指示函数集,如果存在 h个样本能够被函数集里的函数按照所有可能的2h中形式分开,则称函数集能够把h个样本打散。函数集里的VC维就是它能打散的最大样本数目h。

有界实函数的VC维可以通过用一定的阈值将他转化成指示函数来定义


2.支持向量机

2.1 线性可分

假设存在训练样本(x1,y1),...,(xl,yl),xRn,y{+1,1},l为样本数,n为输入维数,在线性可分的情况下就会有一个超平面使得这两类样本完全分开,描述为

(2.1.1)(wx)+b=0
分类如下:
wxi+b0yi=+1
wxi+b0yi=1
w是超平面的法线方向, ww为单位向量,其中 w为欧式模函数。

如果训练数据可以无误差地被划分,以及每一类数据与超平面距离最近的向量与超平面之间的距离最大,则称这个超平面为最优超平面

最优超平面
2.1
在线性可分情况下,可以将求解最优超平面看成解二次型规划的问题。因此,对权值 w和偏移b的最优值,使得权值代价函数最小化
(2.1.2)minΦ(w)=12w
满足约束条件
(2.1.3)yi(wxi+b)10,i=1,2,...,l
可由Lagrange乘子法求解,引入Lagrange乘子 αi0(i=1,2,...,l)
(2.1.4)L(w,b,α)=12w2i=1lαiyi(xiw+b)1
这里 L的极值点为鞍点,可取L wb的最小值 w=w,b=b,以及对 α的最大值 α=α.对 L求导可得
(2.1.5)Lb=i=1lyiαi=0
(2.1.6)Lw=wi=1lyiαixi=0
其中, Lw=(Lw1,Lw2,...,Lwl). SVM通过求解二次规划,得到对应的 α w
(2.1.7)w=i=1lyiαixi
最优平面如图2.1。
经过变换线性可分条件下的原问题成为对偶问题,求解下式的极大化
(2.1.8)maxαW(α)=i=1lα12i=1lj=1lαiαjyiyjxixj=ΓI12ΓDΓ
满足约束
(2.1.9)i=1lyiαi=0,i=1,2,...,l
其中, Γ=(α1,α2,...,αl), I=(1,1,...,1), Dl×l的对称矩阵,各个单元为
(2.1.10)Dij=yiyjxixj
在对这类约束优化问题的求解和分析中,Karush-Kuhn-Tucher(KKT)条件将起重要作用。式(2.9)的解必须满足
(2.1.11)αi{yi(wxi+b)1}=0,i=1,2,...,l
由式(2.7)可知,当 αi=0的样本对分类问题不起作用,只有 αi>0的样本对 w起作用,才决定分类结果。 这样的样本定义为支持向量。
选用一个支持向量样本 xi,可以求得 b
(2.1.12)b=yiwxi
对输入样本 x测试时,计算
(2.1.13)d(x)=xw+b=i=1lyiαi(xxi)+b
根据 s(x)的符号来确认 x的归属。

2.2 线性不可分

线性可分的判别函数建立在欧式距离的基础上,即有K(xi,xj)=xixj=xiTxj.而非线性问题,可将样本 x映射到某个高维特征空间H如图2.2,并在 H中使用线性分类器,即将x做变换 Φ:RdH

(2.2.1)xΦ(x)=(ϕ1(x),ϕ2(x),,ϕi(x),)T
其中, ϕi(x)是实函数。

![输入空间到特征空间的映射][2]
2.2
如果以特征向量 Φ(x)代替输入向量 x,则由式(2.1.10)和式(2.1.13)可知
(2.2.2)Dij=yiyjΦ(xi)Φ(xj)
(2.2.3)d(x)=Φ(x)w+b=i=1lαiyiΦ(xi)Φ(x)+b
不论是寻优函数式(2.1.8)还是分类函数式(2.1.13)都只涉及训练样本之间的内积 (xixj).*根据泛函数相关理论,只要一种核函数 K(xixj)满足Mercer条件,它就对应某一空间中的内积。* 在最优分类面中采用适当的内积函数 K(xixj)就可实现某一非线性变换后的线性分类,而计算复杂度却没增加,那么式(2.1.8)可变为

(2.2.4)maxαW(α)=i=1lα12i=1lj=1lαiαjyiyjK(xi,xj)

则对应的分类函数为

(2.2.5)d(x)=xw+b=i=1lyiαiK(x,xj)+b

这就是支持向量机。

对给定的K(x,y),存在对应的Φ(x)的充要条件是:对于任意给定的函数g(x),当abg(x)2dx有限时,有

(2.2.6)ababK(x,y)g(x)g(y)dxdy0
该条件不容易实际操作,可通过多项式逼近K(x,y)实现,因为多项式满足Mercer条件。
构造类型判定函数的学习机称为支持向量机,在支持向量机中构造的复杂性取决于支持向量机的数目,而不是特征空间的维数。示意图如图2.3.

2.3
对非线性问题支持向量机,首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在该空间中求广义最优分类面。


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/351951
推荐阅读
相关标签
  

闽ICP备14008679号