当前位置:   article > 正文

机器学习笔记_简述如何扩大支持向量机可选的函数范围

简述如何扩大支持向量机可选的函数范围

第一章机器学习的定义

非显著式编程:让计算机自己总结规律的编程方法,规定行为和收益函数后,让计算机自行的去寻找最大化的收益函数(收益函数就是比如计算机如果采取某种行动会带来多少收益)

显著式编程: 人为显著地告诉计算机某种规律的编程方法(明确的告诉计算机某种既定的规则或者行动路线)

机器学习任务分类

在这里插入图片描述
在这里插入图片描述

监督学习(supervised learning): 经验E是由人工采集并输入计算机的
比如:人脸识别,垃圾邮件的识别(需要人为给每个邮件打上标签告诉计算机这是垃圾邮件还是好邮件,告诉计算机每一个训练样本是什么的过程就是为数据打标签(labeling for training data))

强化学习(reinforcement learning): 经验E由计算机和环境互动获得(计算机与环境互动不断强化自己的行为模式)

监督学习分类方法1:根据数据标签存在与否进行分类

监督学习根据数据标签存在与否又可以进行分类:

  1. 传统的监督学习(traditional supervised learning)
    即每一个数据都有对应的标签,主要算法有:
    支持向量机(support vector machine)
    人工神经网络(neural network)
    深度神经网络(deep neural network)
  2. 非监督学习(unsupervised learning)
    所有的训练数据都没有对应的标签,主要算法包括
    聚类(clusting)
    EM算法(Expectation-Maximization algorithm)
    主成分分析(principle component analysis)
  3. 半监督学习(self-supervised learning)
    训练数据 一部分有标签,一部分没有标签
监督学习分类方法2:基于标签的固有属性进行分类

将监督学习分为 分类(classification)和回归(regression)两种

标签是离散的值我们叫做分类
标签是连续的值我们叫做回归

机器学习的算法过程
  1. 特征提取(feature extraction)
    通过训练样本获得的对机器学习有帮助的多维数据,比如一个红细胞的图片,红细胞的大小怎么表示?我们把一个图片像素画,0表示红细胞的范围,1表示红细胞范围之外,然后一个图片中0数值的范围就是细胞大小

  2. 特征选择(feature selection)
    在这里插入图片描述
    选择不同的特征作为区分不同对象的依据,特征选择的不同,区分结果会有较大的影响

  3. 根据选取的特征来获得训练结果
    比如说选取了面积和周长两个特征作为区分白细胞和红细胞的依据如下所示
    这个例子是二维的
    根据输入样本的例子用这两个特征值进行训练,然后获得训练结果,最终会在模型中得到一条线,这条线就是训练结果,用于区分到底是白细胞还是红细胞,不同的算法会获得不同的边界线如下图就有三种边界线。
    接下来就可以用来识别新样本了,如果新样本落在线的左边识别为白细胞,如果落在线的右边识别为红细胞
    3.

没有免费午餐定理

在这里插入图片描述

支持向量机(SVM support vector machine)

线性可分

线性可分(linear separable)
参考连接
在这里插入图片描述
定理: 如果一个数据集是线性可分的,那么会存在无穷多个超平面将各个类分开

线性不可分(nonlinear seperable)
在这里插入图片描述
定理: 如果一个数据集是线性可分的,那么会存在无穷多个超平面将各个类分开
那么在这无穷多个超平面中,哪个超平面是最好的哪?
在这里插入图片描述
假设训练样本的位置在特征空间上有测量误差,那么显然2号线更能抵御训练样本位置的误差
那么接下来考虑,2号线是怎么画出来的?
在这里插入图片描述
假设存在一条线性可分的线2号线,我们把2号线分别上下做平移,分别擦边到两个数据集(擦边x的称为1号线,擦边o的称为3号线) 那些在1号线或者3号线上的数据我们称为 支持向量, 1号线与3号线之间的距离称为间隔(margin),我么要找的2号线就是能够使得这个间隔最大的那条线。并且我们规定这条线(2号线)要在上下两条平行线之间。
在这里插入图片描述

在这里插入图片描述
x i x_i xi, y i y_i yi)这个集合中 x i x_i xi 表示的是在坐标系中的向量,比如二维中 x i x_i xi就是(x1,x2)
在n维中 x i x_i xi 就是 (x1,x2,…,xn)
y i y_i yi 表示的这数据是哪类物品, y i y_i yi=1表示这个数据属于类A, y i y_i yi=b表示这个数据属于类B
w w w是指比如二维平面中一条线 ax + by + c = 0, x x x就是(x,y)这个向量
w w w就是(a,b)这个向量,表示方程未知数前面的系数, ( w , b w,b w,b)中的b就是方程的偏移量了

假设一组数据是线性可分的,
下面用严格的数学证明怎么找到这个超平面:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
我们要找到支持向量到超平面的最大距离就等价于寻找最小的 ∣ ∣ w ∣ ∣ ||w|| w
然后我们将优化问题定义为: 最小化: 1 2 ∣ ∣ w ∣ ∣ 2 \frac{1}{2}||w||^2 21w2
这个问题定义与最小化 ∣ ∣ w ∣ ∣ ||w|| w是完全等价的,之所以这么定义是由于后序的求导会更方便
至此我们就获得了我们的目标函数
在这里插入图片描述
这个问题是个凸优化问题即具有全局最优解的问题,然后我们用一些求解凸优化问题的的方法就可以很方便的求解凸优化问题。

目标函数推导过程

线性不可分

在这里插入图片描述

支持向量机扩大可选函数范围从而处理线性不可分的情况

将数据从低维映射到高维,然后在高维中用线性超平面对数据进行分类

定理:

在这里插入图片描述
ϕ ( ω ) \phi(\omega) ϕ(ω)是把i维度的变量 ω \omega ω映射成n维的变量 ϕ ( ω ) \phi(\omega) ϕ(ω)
在这里插入图片描述

下面我们研究 ϕ ( ω ) 的 形 式 \phi(\omega)的形式 ϕ(ω)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
函数K(w,x),他接受低维空间的输入值,能算出高维空间的内积值<w’,x’>
只要是满足了Mercer条件的函数,都可以作为核函数。核函数的基本作用就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/528391
推荐阅读
相关标签
  

闽ICP备14008679号