当前位置:   article > 正文

如何理解SVM支持向量机算法_超平面系数做等比例变换

超平面系数做等比例变换

1.支持向量机的基本思想

图1 图片引自文献【2】

如图所示的样本集来说,对于空间中线性可分的样本点来说,一定存在多个超平面能够将两类样本分割开来,这也正是感知机的基本实现思想。而对于支持向量机来说,其目的在于找到唯一的超平面,令数据点到超平面的间隔最大,这就意味着我们能够以足够大的确信度将数据正确分类。

2.几何间隔与函数间隔

在说明集合间隔前,回忆下中学课本上点到直线的距离公式,即:

  【式1】

把这个方程与我们即将要解决的图1的问题结合一下,简单的变量替换下:

  【式2】

图1中数据点到超平面的距离就是:

  【式3】

如果我们令正样本的标签值为+1,负样本的标签值为-1,某样本的距离就可以去掉绝对值写成:

  【式4】

接着,我们定义“几何距离”为:

  【式5】

这里做两点说明:

  1. 几何距离指的是所有样本点的距离d最小距离,而这些样本就是支持向量;
  2. 如果超平面的参数wb相同比例的缩放,几何距离不会发生改变。这个从数值上代进去就能算出来,从几何上可以理解为参数w、b相同比例的缩放,超平面并没有发生改变(如x+y+z+1=0与2x+2y+2z+2=0是一个平面),几何距离自然不变。

定义“函数距离”为:

  【式6】

3.间隔最大化问题

间隔最大化的目标是令支持向量的几何距离最大,即求解【式5】的最大化问题:

    【式7】

 

其中约束条件限制了:训练样本中的所有样本到分割超平面间的距离至少是γ,这也决定了支持向量的数量一般是少数的。按照几何距离与函数距离的关系,上式又可以变换为:

    【式8】

 

参照李航博士在统计学习方法中的说法,函数间隔的改变,一方面对于不等式约束没有影响(这个确实),另一方面对目标函数的优化也没有影响(我当时并未理解,这一点下节详解)。于是直接取\hat{\gamma}为1,同时认为最大化1/||w||与最小化0.5*||w||^2等价。最优化问题变为:

   【式9】

  

如果没看明白优化问题的转换(主要是我当时一下没看明白,捂脸...),继续看下一节….

4.间隔最大化中的细节问题

之中我第一次看书的时候最无法理解的是:为什么能够直接取函数间隔\hat{\gamma}为1?那我们下面来看。 

前面已经说过,如果超平面的参数wb相同比例的缩放,几何间隔不会发生改变。那么,

对于最优化问题:

    【式10】

 

假设几何间隔的最小值就在xmin,ymin处取到,我们就可以认为肯定存在一个系数λ,能够使:

    【式11】

在此基础上,就有:

    【式12】

那么【式10】的最优化问题就转换为:

    【式13】

 

化简处理为:

   【式14】

  

式14等价于:

   【式15】

  

后面就是进行不等式约束的最优化问题,具体的方法是利用拉格朗日乘子法及其对偶函数求解。这一部分的理解在上一篇文章中已经说明过了,在此不做赘述,详见支持向量机中“拉格朗日函数与其对偶函数”是什么?_Felier's Blog-CSDN博客

参考文献:

【1】李航.统计学习方法[M], 清华大学出版社, 2012.3, ISBN 978-7-302-27595-4

【2】支持向量机(SVM)——原理篇 - 知乎

【3】支持向量机中“拉格朗日函数与其对偶函数”是什么?_Felier's Blog-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/604910
推荐阅读
相关标签
  

闽ICP备14008679号