赞
踩
1.支持向量机的基本思想
图1 图片引自文献【2】
如图所示的样本集来说,对于空间中线性可分的样本点来说,一定存在多个超平面能够将两类样本分割开来,这也正是感知机的基本实现思想。而对于支持向量机来说,其目的在于找到唯一的超平面,令数据点到超平面的间隔最大,这就意味着我们能够以足够大的确信度将数据正确分类。
2.几何间隔与函数间隔
在说明集合间隔前,回忆下中学课本上点到直线的距离公式,即:
【式1】
把这个方程与我们即将要解决的图1的问题结合一下,简单的变量替换下:
【式2】
图1中数据点到超平面的距离就是:
【式3】
如果我们令正样本的标签值为+1,负样本的标签值为-1,某样本的距离就可以去掉绝对值写成:
【式4】
接着,我们定义“几何距离”为:
【式5】
这里做两点说明:
- 几何距离指的是所有样本点的距离d的最小距离,而这些样本就是支持向量;
- 如果超平面的参数w、b相同比例的缩放,几何距离不会发生改变。这个从数值上代进去就能算出来,从几何上可以理解为参数w、b相同比例的缩放,超平面并没有发生改变(如x+y+z+1=0与2x+2y+2z+2=0是一个平面),几何距离自然不变。
定义“函数距离”为:
【式6】
3.间隔最大化问题
间隔最大化的目标是令支持向量的几何距离最大,即求解【式5】的最大化问题:
【式7】
其中约束条件限制了:训练样本中的所有样本到分割超平面间的距离至少是γ,这也决定了支持向量的数量一般是少数的。按照几何距离与函数距离的关系,上式又可以变换为:
【式8】
参照李航博士在统计学习方法中的说法,函数间隔的改变,一方面对于不等式约束没有影响(这个确实),另一方面对目标函数的优化也没有影响(我当时并未理解,这一点下节详解)。于是直接取为1,同时认为最大化1/||w||与最小化0.5*||w||^2等价。最优化问题变为:
【式9】
如果没看明白优化问题的转换(主要是我当时一下没看明白,捂脸...),继续看下一节….
4.间隔最大化中的细节问题
之中我第一次看书的时候最无法理解的是:为什么能够直接取函数间隔为1?那我们下面来看。
前面已经说过,如果超平面的参数w、b相同比例的缩放,几何间隔不会发生改变。那么,
对于最优化问题:
【式10】
假设几何间隔的最小值就在xmin,ymin处取到,我们就可以认为肯定存在一个系数λ,能够使:
【式11】
在此基础上,就有:
【式12】
那么【式10】的最优化问题就转换为:
【式13】
化简处理为:
【式14】
式14等价于:
【式15】
后面就是进行不等式约束的最优化问题,具体的方法是利用拉格朗日乘子法及其对偶函数求解。这一部分的理解在上一篇文章中已经说明过了,在此不做赘述,详见支持向量机中“拉格朗日函数与其对偶函数”是什么?_Felier's Blog-CSDN博客。
参考文献:
【1】李航.统计学习方法[M], 清华大学出版社, 2012.3, ISBN 978-7-302-27595-4
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。