赞
踩
支持向量机(SVM)是一个二进制分类模型,其基本模型是线性分类器。SVM还包括核技能,这使其成为实质上的非线性分类器。 SVM训练策略是使间隔最大化,可以将其形式化为求解凸二次规划的问题,并且也等效于使正则化铰链损失函数最小化的问题。 SVM学习算法是求解凸二次规划的最佳算法。
超平面可以理解为一维空间中的点,二维空间中的线,三维空间中平面的扩展,并且是分类决策的边界。支持向量机(SVM)设计用于二进制分类任务。这个想法是基于一组训练样本D在样本空间中找到一个分离的超平面,以分离不同类型的样本。选择超平面时,必须使超平面与两个类别的采样点尽可能远。
样本空间中,从任一点x到超平面(w,b)的距离公式为:
支持向量指距离超平面最近的几个训练样本点。
间隔指两个异类支持向量到超平面的距离之和。SVM的直观目的就是找到最小函数间隔的样本点(即支持向量),然后最大化它的几何间隔。在SVM的基本型中,就是要找到满足约束条件的参数w 和 b,使得 r 最大。
为了更高效求解参数w和b,拉格朗日乘子法被提出:
可以采用SMO算法完成对偶问题的求解。
对于非线性可分的训练样本通过核函数将原始空间映射到更高维的特征空间来使得样本线性可分。x映射后的特征向量可以表示为
那么新的模型可以表示为:
特征空间的好坏对支持向量机的性能至关重要,因此,核函数的选择成为支持向量机的最大变数。
核函数定理:
核函数特点:
对于第三点,有缓解的方法:
软间隔支持向量机的优化目标函数:
其中的常数C,其取无穷大时,约束条件等于硬间隔条件。但当C取有限值,则允许一些样本存在不满足约束的情况。
支持向量机中的原始样本空间不一定具有满足条件的超平面,但原始空间如果是有限维的,则总会有一个高维特征空间使样本线性可分离。核函数用于简化大型特征的计算的方法。核函数的选择是支持向量机性能的最大变量。常用的核函数是线性核,多项式核,高斯核(RBF核),拉普拉斯核,Sigmoid核。对于文本数据,通常使用线性核,并且在情况未知时可以首先尝试使用高斯核。
支持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值大于ε时才计算损失.
核方法是指通过引入核函数将低维的非线性学习拓展为高维的非线性学习。核方法的理论基础是Cover's theorem,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。