赞
踩
二分类问题
|
特征空间
|
线性可分
|
线性模型
(分类问题-二分类)
在机器学习的应用中,至少现阶段,分类是一个非常常见的需求。特别是二分类,它是一切分类的基础。而且,很多情况下,多分类问题可以转化为二分类问题来解决。
所谓二分类问题就是:给定的各个样本数据分别属于两个类之一,而目标是确定新数据点将归属到哪个类中。
输入空间、输出空间、特征空间
在监督学习中,将输入与输出所有可能取值的集合分别成为输入空间和输出空间。输入空间和输出空间可以是有限元素的集合,也可以是整个欧式空间。
每个具体的输入是一个实例(instance),通常由特征向量表示,特征向量所在的空间被称为特征空间。假设样本的特征向量为 n 维,那么我们说这些样本的特征向量处在 n 维的特征空间中。
一般来说,特征空间可以是欧氏空间,也可以是希尔伯特空间,不过为了便于理解,在以后的所有例子中都使用欧氏空间。
直观上,当我们把一个 n 维向量表达在一个 n 维欧氏空间中的时候,能够“看到”的一个个向量对应为该空间中的一个个点。
数据集、样本/样本点
对监督学习来说,数据集由训练集和测试集构成,而不论训练集还是测试集都是由输入(或特征向量)和输出组成的对所组成,因此输入与输出对又被称为样本或者样本点。
所谓”线性可分“,首先要明白其描述的对象是数据集,或者说样本点。
还是以二分类为例,如下图所示,数据集线性可分,表示两类样本能够被完全分隔开,此时,我们说这两类样本在其特征空间里线性可分。
上面的表述很不严谨,我们来看看线性可分严格的数学定义:
D0和 D1 是 n 维欧氏空间中的两个点集(点的集合)。
如果存在 n 维向量 w 和实数 b,使得所有属于 D0 的点 xi 都有 wxi+b>0,
而对于所有属于 D1 的点 xj 则有 wxj+b<0。则我们称 D0 和 D1 线性可分。
该篇文章最主要的点来了
我们将满足wxi+b>0的样本类别输出值取为1,满足wxi+b<0的样本类别输出值取为-1,
这样取y的值有一个好处,就是方便定义损失函数。
因为正确分类的样本满足 y(wxi+b)>0,而错误分类的样本满足y(wxi+b)<0。参考
为什么将输出值定义为-1 和 1 ,可以是其他是实数值,比如-5 和 5 ?
答:其实这里只是为了计算方便,才定义y的分类值取-1 和 1 (所以不要太过纠结)
注意,与 SVM 的约束条件作区分!
超平面
超平面:n 维欧氏空间中维度等于 n-1 的线性子空间。
1维欧氏空间(直线)中的超平面为0维(点),2维欧氏空间中的超平面为1维(直线);3维欧氏空间中的超平面为2维(平面);以此类推。
线性分类模型
在数学意义上,将线性可分的样本用超平面分隔开的分类模型,叫做线性分类模型,或线性分类器。
在一个样本特征向量线性可分的特征空间里,可能有许多超平面可以把两类样本分开。
一个合理的策略是:以最大间隔把两类样本分开的超平面,是最佳超平面!这就是线性可分支持向量机的思想。
线性可分支持向量机就是:以找出线性可分的样本在特征空间中的最大间隔超平面为学习目的的分类模型。
参考:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。