赞
踩
非显著式编程:让计算机自己总结规律的编程方法,规定行为和收益函数后,让计算机自行的去寻找最大化的收益函数(收益函数就是比如计算机如果采取某种行动会带来多少收益)
显著式编程: 人为显著地告诉计算机某种规律的编程方法(明确的告诉计算机某种既定的规则或者行动路线)
监督学习(supervised learning): 经验E是由人工采集并输入计算机的
比如:人脸识别,垃圾邮件的识别(需要人为给每个邮件打上标签告诉计算机这是垃圾邮件还是好邮件,告诉计算机每一个训练样本是什么的过程就是为数据打标签(labeling for training data))
强化学习(reinforcement learning): 经验E由计算机和环境互动获得(计算机与环境互动不断强化自己的行为模式)
监督学习根据数据标签存在与否又可以进行分类:
将监督学习分为 分类(classification)和回归(regression)两种
标签是离散的值我们叫做分类
标签是连续的值我们叫做回归
特征提取(feature extraction)
通过训练样本获得的对机器学习有帮助的多维数据,比如一个红细胞的图片,红细胞的大小怎么表示?我们把一个图片像素画,0表示红细胞的范围,1表示红细胞范围之外,然后一个图片中0数值的范围就是细胞大小
特征选择(feature selection)
选择不同的特征作为区分不同对象的依据,特征选择的不同,区分结果会有较大的影响
根据选取的特征来获得训练结果
比如说选取了面积和周长两个特征作为区分白细胞和红细胞的依据如下所示
这个例子是二维的
根据输入样本的例子用这两个特征值进行训练,然后获得训练结果,最终会在模型中得到一条线,这条线就是训练结果,用于区分到底是白细胞还是红细胞,不同的算法会获得不同的边界线如下图就有三种边界线。
接下来就可以用来识别新样本了,如果新样本落在线的左边识别为白细胞,如果落在线的右边识别为红细胞
线性可分(linear separable)
参考连接
定理: 如果一个数据集是线性可分的,那么会存在无穷多个超平面将各个类分开
线性不可分(nonlinear seperable)
定理: 如果一个数据集是线性可分的,那么会存在无穷多个超平面将各个类分开
那么在这无穷多个超平面中,哪个超平面是最好的哪?
假设训练样本的位置在特征空间上有测量误差,那么显然2号线更能抵御训练样本位置的误差
那么接下来考虑,2号线是怎么画出来的?
假设存在一条线性可分的线2号线,我们把2号线分别上下做平移,分别擦边到两个数据集(擦边x的称为1号线,擦边o的称为3号线) 那些在1号线或者3号线上的数据我们称为 支持向量, 1号线与3号线之间的距离称为间隔(margin),我么要找的2号线就是能够使得这个间隔最大的那条线。并且我们规定这条线(2号线)要在上下两条平行线之间。
(
x
i
x_i
xi,
y
i
y_i
yi)这个集合中
x
i
x_i
xi 表示的是在坐标系中的向量,比如二维中
x
i
x_i
xi就是(x1,x2)
在n维中
x
i
x_i
xi 就是 (x1,x2,…,xn)
y
i
y_i
yi 表示的这数据是哪类物品,
y
i
y_i
yi=1表示这个数据属于类A,
y
i
y_i
yi=b表示这个数据属于类B
w
w
w是指比如二维平面中一条线 ax + by + c = 0,
x
x
x就是(x,y)这个向量
w
w
w就是(a,b)这个向量,表示方程未知数前面的系数, (
w
,
b
w,b
w,b)中的b就是方程的偏移量了
假设一组数据是线性可分的,
下面用严格的数学证明怎么找到这个超平面:
我们要找到支持向量到超平面的最大距离就等价于寻找最小的
∣
∣
w
∣
∣
||w||
∣∣w∣∣
然后我们将优化问题定义为: 最小化:
1
2
∣
∣
w
∣
∣
2
\frac{1}{2}||w||^2
21∣∣w∣∣2
这个问题定义与最小化
∣
∣
w
∣
∣
||w||
∣∣w∣∣是完全等价的,之所以这么定义是由于后序的求导会更方便
至此我们就获得了我们的目标函数
这个问题是个凸优化问题即具有全局最优解的问题,然后我们用一些求解凸优化问题的的方法就可以很方便的求解凸优化问题。
将数据从低维映射到高维,然后在高维中用线性超平面对数据进行分类
ϕ
(
ω
)
\phi(\omega)
ϕ(ω)是把i维度的变量
ω
\omega
ω映射成n维的变量
ϕ
(
ω
)
\phi(\omega)
ϕ(ω)
函数K(w,x),他接受低维空间的输入值,能算出高维空间的内积值<w’,x’>
只要是满足了Mercer条件的函数,都可以作为核函数。核函数的基本作用就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。