赞
踩
支持向量机为一个二分类模型,SVM的目标是寻找一个最优的分离超平面,将两类数据在空间中分离开来,并且使得这个超平面到最近的点的间隔最大,这些点称为支持向量。
一是对偶问题往往更容易求解。当我们寻找约束存在时的最优点的时候,约束的存在虽然减小了需要搜寻的范围,但是却使问题变得更加复杂。为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点;
二是方便引入核函数,(因为对偶问题涉及的是数据的内积计算)进而推广到非线性分类问题。
不同在于松弛变量的引入。
松弛变量的作用:软间隔,使得原来线性不可分问题变为线性可分,部分函数间隔y *(w x + b )无法满足大于1的条件的样本点 加上松弛变量之后,函数间隔可以大于1。因此可以使用线性可分的解法求解。
一种回答:
根据数据类型选择不同的模型,如Lr或者SVM,决策树。假如特征维数较多,可以选择SVM模型,如果样本数量较大可以选择LR模型,但是LR模型需要进行数据预处理;假如缺失值较多可以选择决策树。
线性核:主要用于线性可分的情形,参数少,速度快,对于一般数据,分类效果已经很理想了;
高斯核:主要用于线性不可分的情形,参数多,分类结果非常依赖于参数。
特征数数量较多,和样本数量差不多,用线性核;
特征数少用高斯核。
当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。而引入这样的映射后,通过对偶问题来求解,无需求解真正的映射函数,而只需要知道其核函数。
核函数就是特征映射后的内积,在学习和预测中只需要定义核函数而不显式地定义映射函数,从而降低计算的难度。
一对多:每次将一个类型作为正例,其他的作为反例,训练出k个分类器,当有一个新的样本来的时候,用这k个分类器来测试,哪个分类器的概率高,那么这个样本就属于哪一类。;
一对一:任意两个类训练出一个分类器,如果有k类,一共训练出
C
(
2
,
k
)
C(2,k)
C(2,k) 个分类器,这样当有一个新的样本要来的时候,用这$C(2,k) $个分类器来测试,每当被判定属于某一类的时候,该类就加一,最后票数最多的类别被认定为该样本的类。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。